Geometric Deep Learning
Grids, Groups, Graphs,
Geodesics, and Gauges
Preface
Euclid의 Elements, word555
According to a popular belief, the Erlangen Programme was delivered in Klein’s inaugural address in October 1872. Klein indeed gave such a talk (though on December 7 of the same year), but it was for a non-mathematical audience and concerned primarily his ideas of mathematical education. What is now called the ‘Erlangen Programme’ was actually a research prospectus brochure Vergleichende Betrachtungen über neuere geometrische Forschungen (“A comparative review of recent researches in geometry”) he prepared as part of his professor appointment. See Tobies (2019). ‘geometry’는 다른 유형의 Geometry가 존재하지 않았기 때문에 Euclidean geometry과 동의어였다. 유클리드의 독점은 19세기에 끝났으며, 로바체베스키, 볼라이, 가우스, 리만에 의해 구성된 비유클리드 기하학의 예를 들 수 있다. 그 세기가 끝날 무렵, 수학자들과 철학자들은 이러한 기하학의 타당성과 관계 그리고 "하나의 진정한 기하학"의 본질에 대해 토론하면서, 이 연구들은 서로 다른 분야로 갈라졌다.
이 피클에서 벗어나는 길은 1872년에 작은 바이에른 엘랑겐 대학의 교수로 임명된 젊은 수학자 펠릭스 클라인(Felix Klein)에 의해 보여졌습니다. 수학 연보를 Erlangen Programme, Klein은 기하학의 invariants, 즉, 기하학의 symmetries이라고 하는 변형의 일부 클래스에서 속성이 변경되지 않은 연구로 접근 기하학을 제안했다. 이 접근법은 당시 알려진 다양한 기하학이 군 이론의 언어를 사용하여 공식화된 대칭 변환의 적절한 선택에 의해 정의될 수 있음을 보여줌으로써 명확성을 만들었다. 예를 들어, 유클리드 기하학은 길이와 각도에 관한 것인데, 이러한 성질은 유클리드 변환(회전과 변환) 그룹에 의해 보존되는 반면, 아핀 기하학은 아핀 변환 그룹에 의해 보존되는 평행성을 연구하기 때문이다. 유클리드 그룹은 아핀 그룹의 하위 그룹이고, 이는 차례로 사영 변환 그룹의 하위 그룹이기 때문에 이러한 기하학 사이의 관계는 각 그룹을 고려할 때 즉시 명백하다.
기하학에 대한 Erlangen 프로그램의 영향은 매우 심오했다. 게다가, 그것은 다른 분야, 특히 물리학으로 유출되었는데, 여기서 대칭 원리는 대칭의 첫 번째 원리로부터 보존 법칙을 도출할 수 있게 했고(Noether의 정리로 알려진 놀라운 결과), 심지어 기본 입자들을 대칭군의 환원 불가능한 표현으로 분류하는 것을 가능하게 했다. Category theory은 현재 순수 수학에 널리 퍼져 있으며, 창작자인 Samuel Eilenber와 Saunders Mac Lane의 말에서 "Klein Erlangen Programme의 연속으로 간주될 수 있습니다. 666See Marquis (2009).
필기 당시 딥 러닝 분야의 상태는 19세기 기하학 분야를 다소 연상시킨다. 다양한 종류의 데이터에 대한 신경망 아키텍처의 진정한 동물원은 있지만 원칙을 통합하는 것은 거의 없다. 과거와 마찬가지로 이것은 다양한 방법 간의 관계를 이해하기 어렵게 만들고, 필연적으로 다른 응용 영역에서 동일한 개념의 재발명과 재브랜딩을 초래한다. 그 분야를 배우려는 초보자에게, 엄청난 양의 중복된 아이디어를 흡수하는 것은 진정한 악몽이다.
이 텍스트에서 우리는 이 분야의 시스템화를 얻고 '점 연결'을 궁극적인 목표로 딥 러닝의 영역에 에를랑겐 프로그램 마인드를 적용하려는 겸손한 시도를 한다. 우리는 이 기하학 시도를 ‘기하학적 딥러닝’이라고 부르며, 펠릭스 클라인의 정신에 충실하여 대칭과 불변성의 첫 번째 원리에서 서로 다른 귀납적 편향과 이를 구현하는 네트워크 아키텍처를 도출할 것을 제안한다. 특히, 구조화되지 않은 집합, 격자, 그래프, 매니폴드를 분석하기 위해 설계된 대규모 신경망에 초점을 맞추고, 이러한 도메인의 구조와 대칭을 존중하는 방법으로 통합적으로 이해할 수 있음을 보여준다.
우리는 이 텍스트가 광범위한 심층 학습 연구자, 실무자 및 애호가에게 어필할 것이라고 믿습니다. 초보자는 이를 기하 딥러닝의 개요 및 소개로 활용할 수 있다. 노련한 딥 러닝 전문가는 기본 원리와 몇 가지 놀라운 연결에서 친숙한 아키텍처를 도출하는 새로운 방법을 발견할 수 있다. 실천가는 각 분야의 문제를 해결하는 방법에 대한 새로운 통찰력을 얻을 수 있다.
현대 기계 학습처럼 빠르게 진행되는 분야라면, 이런 글을 쓸 위험은 낮의 빛을 보기 전에 쓸모없고 무관해지기 때문이다. 기반에 초점을 맞춘 우리의 희망은 우리가 논의하는 핵심 개념이 특정 현실을 초월할 것이라는 것이다. 777“The knowledge of certain principles easily compensates the lack of knowledge of certain facts.” (Helvétius, 1759)— 또는 Claude Adrien Helvétius가 말했듯이 “la connaissance de certains principes supplée facilement à la connoissance de certains faits.”
Notation
|
Domain, point on domain |
|
|
Signal on the domain of the form |
|
|
Functions on signals on the domain of the form |
|
|
Group, element of the group |
|
|
Group action, group representation |
|
|
Matrix representing a signal on a discrete domain |
|
|
Vector representing a discrete domain signal on element |
|
|
Scalar representing the th component of a discrete domain signal on element |
|
|
Function on discrete domain signals that returns another discrete domain signal, as a matrix |
|
|
Automorphism of the domain |
|
|
Isomorphism between two different domains |
|
|
Activation function (point-wise non-linearity) |
|
|
Graph with nodes and edges |
|
|
Mesh with nodes , edges , and faces |
|
|
Convolution with filter |
|
|
Shift operator |
|
|
Basis function |
|
|
Tangent space at , tangent bundle |
|
|
Tangent vector |
|
|
Riemannian metric |
|
|
Length of a curve , discrete metric on edge |
1 Introduction
지난 10년 동안 데이터 과학 및 기계 학습에서 딥 러닝 방법으로 대표되는 실험적 혁명을 목격했다. 실제로, 컴퓨터 비전, 바둑 연주 또는 단백질 접기와 같이 이전에는 손이 닿지 않는 것으로 생각되었던 많은 고차원 학습 작업은 실제로 적절한 계산 규모로 실현 가능하다. 놀랍게도, 딥 러닝의 본질은 두 가지 간단한 알고리즘 원리로부터 구축된다: 첫째, 표현 또는 feature learning에 의해 적응된, 종종 계층적인 특징들이 각각의 태스크에 대한 규칙성의 적절한 개념을 포착하고, 둘째, 로컬 그래디언트-descent에 의한 학습은 전형적으로 backpropagation으로 구현된다.
고차원에서 일반 함수를 학습하는 것은 저주받은 추정 문제이지만 대부분의 관심 과제는 일반적이지 않으며 물리적 세계의 근본적인 저차원성과 구조에서 발생하는 필수 미리 정의된 규칙성을 포함한다. 이 텍스트는 광범위한 응용 분야에 걸쳐 적용될 수 있는 통일된 기하학적 원리를 통해 이러한 규칙성을 노출시키는 것과 관련이 있다.
큰 계의 알려진 대칭을 이용하는 것은 차원성의 저주에 대항하는 강력하고 고전적인 해결책이며, 대부분의 물리적 이론의 기초를 형성한다. 딥러닝 시스템도 예외는 아니며, 초기 연구자들은 이미지의 그리드, 시계열의 시퀀스 또는 분자의 위치 및 운동량, 병진 또는 회전과 같은 관련 대칭과 같은 물리적 측정에서 발생하는 저차원 기하학을 활용하기 위해 신경망을 채택했다. 우리의 박람회 전반에 걸쳐 우리는 이러한 모델과 다른 많은 모델을 기하 규칙성의 동일한 기본 원리의 자연 사례로 설명할 것이다.
Erlangen 프로그램의 정신에서 이러한 '기하학적 통일' 노력은 이중 목적을 제공한다: 한편으로, CNN, RNN, GNN 및 트랜스포머와 같은 가장 성공적인 신경망 아키텍처를 연구하기 위한 공통 수학적 프레임워크를 제공한다. 한편, 이전의 물리적 지식을 신경망 구조에 통합하기 위한 건설적인 절차를 제공하고, 아직 발명되지 않은 미래의 아키텍처를 구축하기 위한 원칙적인 방법을 제공한다.
진행하기 전에, 우리의 작업은 representation learning architecture 및 그 안의 데이터의 대칭성을 이용하는 것에 관한 것이라는 점에 주목할 필요가 있다. 이러한 표현이 사용될 수 있는 (자기 지도 학습, 생성 모델링 또는 강화 학습과 같은) 많은 흥미로운 pipelines은 not our central focus888The same applies for techniques used for optimising or regularising our architectures, such as Adam (Kingma and Ba, 2014), dropout (Srivastava et al., 2014) or batch normalisation (Ioffe and Szegedy, 2015).이다. 따라서 우리는 깊이 영향을 미치는 신경 파이프라인인 variational autoencoders (Kingma and Welling, 2013), 생성적 적대 네트워크 (Goodfellow et al., 2014), normalising flows (Rezende and Mohamed, 2015), deep Q-networks (Mnih et al., 2015), proximal policy optimisation (Schulman et al., 2017), 또는 deep mutual information maximization (Hjelm et al., 2019)에서는 검토하지 않을 것이다. 즉, 우리는 우리가 초점을 맞출 원칙이 이 모든 분야에서 매우 중요하다고 믿습니다.
또한, 기하학적 설계도의 힘을 설명하기 위해 상당히 넓은 그물을 던지려고 시도했지만, 우리의 작업은 Geometric Deep Learning에 대한 기존의 풍부한 연구 entire을 정확하게 요약하려고 시도하지 않는다. 오히려, 우리는 원리를 입증하고 기존 연구에서 근거하기 위해 잘 알려진 몇 가지 아키텍처를 심층적으로 연구하며, 독자가 이러한 원리를 접하거나 고안하는 미래의 기하학적 심층 아키텍처에 의미 있게 적용할 수 있는 충분한 참조를 남겼기를 바란다.
2 Learning in High Dimensions
지도 기계 학습은 가장 간단한 형식화에서, 관찰 그려진 i.i.d.의 기본 데이터 분포 에 걸쳐 정의된 , 여기서 및 는 각각 데이터 및 라벨 도메인이다. 이 설정에서 정의하는 특징은 가 high-dimensional space: 하나는 전형적으로 를 큰 차원의 유클리드 공간 라고 가정한다.
레이블 가 미지의 함수 에 의해 생성되어 가 되고, 학습 문제는 parametrised 함수 클래스 를 이용하여 함수 를 추정하는 것으로 줄어든다고 가정하자. 신경망은 이러한 파라메트릭 함수 클래스의 일반적인 구현이며, 이 경우 는 네트워크 가중치에 해당한다. 이 이상화된 설정에서, 라벨에는 노이즈가 없고, 현대의 딥 러닝 시스템은 일반적으로 소위 인터폴레이팅 레짐, 여기서 추정된 는 모든 에 대해 를 만족한다. 학습 알고리즘의 성능은 일부 expected performance 999Statistical learning theory is concerned with more refined notions of generalisation based on concentration inequalities; we will review some of these in future work. 에서 가져온 새로운 샘플에 대해 loss
with the squared-loss being among the most commonly used ones.
따라서 성공적인 학습 스킴은 규칙성 또는 inductive bias for 함수 클래스 의 구성 및 regularisation의 사용을 통해 부과되는 적절한 개념을 인코딩해야 한다. 우리는 다음 절에서 이 개념을 간략하게 소개한다.
2.1 Inductive Bias via Function Regularity
현대 기계 학습은 대용량 고품질 데이터 세트로 작동하며, 적절한 계산 리소스와 함께 이러한 대용량 데이터를 보간할 수 있는 용량으로 풍부한 함수 클래스 의 설계에 동기를 부여한다. 이 사고방식은 가장 간단한 아키텍처 선택에서도 dense 함수 클래스를 산출하기 때문에 신경망과 잘 작동합니다. 10101010 일반적인 범용 근사화 결과는 2층 퍼셉트론(two-layer perceptron, )에 의해 표현되는 함수들의 클래스가 상의 연속적인 함수들의 공간에서 밀집되어 있음을 보여준다. 거의 임의의 함수에 근사하는 능력은 다양한 Universal Approximation Theorems; 이러한 몇 가지 결과는 응용 수학자와 컴퓨터 과학자에 의해 1990년대에 증명되고 대중화되었다(예: Cybenko (1989); Hornik (1991); Barron (1993); Leshno et al. (1993); Maiorov (1999); Pinkus (1999) 참조).
그러나 유니버설 근사화는 유도성 바이어스의 absence을 의미하지 않는다. 범용 근사치를 갖는 가설 공간 가 주어지면, 우리는 복잡도 측정 를 정의하고 우리의 보간 문제를 다음과 같이 재정의할 수 있다.
즉, 우리는 가설 클래스 내에서 가장 규칙적인 함수를 찾고 있다. 표준 함수 공간에 대해, 이러한 복잡도 측정은 norm,11111111 비공식적으로, norm 는 벡터 의 “길이”로 간주될 수 있다. A Banach space은 norm이 장착된 완전한 벡터 공간이다. making a Banach space and allowing to leverage a plethora of theoretical results in functional analysis. 저차원에서 스플라인은 함수 근사를 위한 작업마입니다. 그들은 입방 스플라인에 대한 2차 미분 의 제곱 노름과 같은 평활성이라는 고전적인 개념을 포착하는 노름과 함께 위와 같이 공식화될 수 있다.
뉴럴 네트워크의 경우, 복잡도 측정값 는 네트워크 가중치, 즉 로 표현될 수 있다. 네트워크 가중치의 -norm, weight decay, 또는 소위 path-norm (Neyshabur et al., 2015)는 딥 러닝 문헌에서 인기 있는 선택이다. 베이지안 관점에서 이러한 복잡도 측정은 관심 함수에 대한 이전의 음의 로그로도 해석될 수 있다. 보다 일반적으로, 이러한 복잡성은 특정 최적화 스킴의 결과로서 경험적 손실(이른바 구조적 위험 최소화의 결과)에 통합함으로써 explicitly 또는 implicitly로 강제될 수 있다. 예를 들어, 과소-결정된 최소-제곱 대물렌즈 상에서의 그래디언트-하강은 최소 norm을 갖는 보간 솔루션을 선택할 것이라는 것은 잘 알려져 있다. 이러한 암시적 정규화 결과의 현대 신경망으로의 확장은 현재 연구의 주제이다(예: Blanc et al. (2020); Shamir and Vardi (2020); Razin and Cohen (2020); Gunasekar et al. (2017) 참조). 대체로, 자연적인 질문이 발생한다: 실제 예측 작업의 예상되는 규칙성과 복잡성을 포착하는 효과적인 전과를 어떻게 정의할 것인가?
2.2 The Curse of Dimensionality
저차원에서의 보간( 또는 로)은 점점 더 정교한 규칙성 클래스(스플라인 보간법, 웨이블릿, 곡선 또는 능선 등)를 사용하여 추정 오차의 매우 정밀한 수학적 제어를 갖는 고전적인 신호 처리 작업이지만, 고차원 문제에 대한 상황은 완전히 다르다.
In order to convey the essence of the idea, let us consider a classical notion of regularity that can be easily extended to high dimensions: 1-Lipschitz- functions , i.e. functions satisfying for all . This hypothesis only asks the target function to be locally smooth, i.e., if we perturb the input slightly (as measured by the norm ), the output is not allowed to change much. If our only knowledge of the target function is that it is -Lipschitz, how many observations do we expect to require to ensure that our estimate will be close to ? Figure 2 reveals that the general answer is necessarily exponential in the dimension , signaling that the Lipschitz class grows ‘too quickly’ as the input dimension increases: in many applications with even modest dimension , the number of samples would be bigger than the number of atoms in the universe. The situation is not better if one replaces the Lipschitz class by a global smoothness hypothesis, such as the Sobolev Class 121212A function is in the Sobolev class if and the generalised -th order derivative is square-integrable: , where is the Fourier transform of ; see Section 4.2. . Indeed, classic results (Tsybakov, 2008) establish a minimax rate of approximation and learning for the Sobolev class of the order , showing that the extra smoothness assumptions on only improve the statistical picture when , an unrealistic assumption in practice.
완전 연결 신경망은 가중치에 복잡도 함수 를 고려하여 얻어지는 규칙성의 보다 유연한 개념을 가능하게 하는 함수 공간을 정의한다. 특히 희소성 촉진 규칙화를 선택함으로써 차원성 (Bach, 2017)의 저주를 깨는 능력이 있다. 그러나, 이는, 가 입력의 저차원 투영들의 컬렉션에 의존한다는 것과 같이, 타겟 함수 의 성질에 대해 강한 가정을 하는 것을 희생하여 온다(도 3 참조). 대부분의 실제 응용(컴퓨터 비전, 음성 분석, 물리 또는 화학 등)에서 관심 기능은 저차원 투영으로 표현할 수 없는 복잡한 장거리 상관 관계를 나타내는 경향이 있어(그림 3), 이 가설을 비현실적으로 만든다. 따라서 다음 섹션 3에서 설명한 것처럼 물리적 도메인의 공간 구조와 의 기하학적 전형을 활용하여 규칙성의 대체 소스를 정의할 필요가 있다.
3 Geometric Priors
현대 데이터 분석은 고차원 학습과 동의어이다. 섹션 2.1의 간단한 인수는 차원의 저주의 결과로 일반 고차원 데이터에서 학습의 불가능성을 드러내지만, 물리적으로 구조화된 데이터에 대한 희망이 있으며, 여기서 우리는 두 가지 기본 원리를 사용할 수 있다: symmetry 및 scale separation. 이 텍스트에서 고려되는 설정에서 이 추가 구조는 일반적으로 입력 신호의 기초가 되는 도메인의 구조에서 비롯됩니다. 우리는 기계 학습 시스템이 일부 도메인 에서 signals(functions)에서 작동한다고 가정합니다. 많은 경우에 상의 점들의 선형 조합은 잘 정의되지 않은 13131313는 수식 가 말이 되기 위해서는 벡터 공간이어야 한다. > 또한 신호 간의 내적을 정의할 수 있으므로 이 공간은 Hilbert space이다.
대표적인 예시로서, 를 이차원 그리드, RGB 이미지(즉, 신호), 차원 입력에서 동작하는 함수(단층 Perceptron 등)로 한다. 다음에서 보다 상세히 볼 수 있듯이, 도메인 는 보통 일정한 기하학적 구조와 대칭을 부여받는다. 스케일 분리는 신호를 더 거친 버전의 도메인으로 전달할 때 신호의 중요한 특성을 보존하는 능력(예: 기본 그리드를 조대화하여 이미지를 서브샘플링)에서 비롯된다.
우리는 일반적으로 geometric priors이라고 지칭할 두 원리가 대부분의 현대 딥 러닝 아키텍처에서 두드러진다는 것을 보여줄 것이다. 위에서 고려된 이미지의 경우, 기하학적 사전은 공유된 가중치(병진 대칭을 이용함) 및 풀링(스케일 분리를 이용함)을 갖는 컨볼루션 필터 형태의 컨볼루션 신경망(CNN)에 구축된다. 이러한 아이디어를 그래프 및 매니폴드와 같은 다른 영역으로 확장하고 기본 원칙에서 기하학적 전례가 어떻게 나타나는지 보여주는 것이 기하 딥러닝의 주요 목표이며 텍스트의 leitmotif이다.
3.1 Symmetries, Representations, and Invariance
비공식적으로, 객체 또는 시스템의 symmetry은 상기 객체 또는 시스템의 특정 속성을 변경하지 않거나 invariant을 남기는 변환이다. 이러한 변환은 매끄럽거나 연속적이거나 이산적일 수 있다. 대칭은 많은 기계 학습 작업에서 어디에나 있습니다. 예를 들어, 컴퓨터 비전에서 객체 카테고리는 시프트에 의해 변하지 않으므로, 시프트는 시각적 객체 분류의 문제에서 대칭이다. 계산 화학에서 분자의 특성을 공간에서의 방향과 독립적으로 예측하는 작업은 rotational invariance을 필요로 한다. 이산 대칭은 입자들이 정준적 질서를 갖지 않고 따라서 임의적으로 순열될 수 있는 입자 계를 설명할 때, 시간-역 대칭(상세한 균형의 계 또는 뉴턴의 제2 운동 법칙과 같은)을 통해 많은 역학 계뿐만 아니라 임의적으로 순열될 수 있는 입자 계를 설명할 때 자연스럽게 나타난다. 섹션 4.1에서 볼 수 있듯이 순열 대칭도 그래프 구조 데이터 분석의 중심이다.
Symmetry groups
객체의 대칭 집합은 다수의 속성을 만족한다. 먼저, 대칭을 결합하여 새로운 대칭을 얻을 수 있다: 및 가 두 대칭이면, 그 구성 및 16161616그룹 이론에서 사용되는 병치 표기 규칙을 따를 것이다. 많은 경우에 대칭이 비교환적이기 때문에 순서가 중요하다. Lie 그룹에 익숙한 독자들은 Fraktur 글꼴을 사용하여 그룹 요소를 나타내려는 우리의 선택에 방해를 받을 수 있는데, 이는 Lie 대수의 일반적인 표기법이기 때문이다. are also symmetries. 그 이유는 두 변환이 모두 대상을 불변으로 떠난다면 변환의 구성도 마찬가지이므로 그 구성 역시 대칭이기 때문이다. 더욱이 대칭은 항상 가역적이며, 역도 대칭이다. 이는 모든 대칭의 집합이 group으로 알려진 대수적 객체를 형성함을 보여준다. 이러한 객체는 기하 딥러닝의 수학적 모델의 중심이 될 것이므로 공식적인 정의와 자세한 논의를 받을 자격이 있다.
Note that commutativity is not part of this definition, i.e. we may have . Groups for which for all are called commutative or Abelian171717After the Norwegian mathematician Niels Henrik Abel (1802–1829)..
일부 그룹은 매우 크고 심지어 무한할 수 있지만, 종종 그룹 생성기이라고 하는 몇 가지 요소의 구성에서 발생한다. 형식적으로, 는 하위 집합 에 의해 generated이라고 한다(그룹 generator이라고 한다) 모든 요소 가 의 요소와 그 역수의 유한한 구성으로 작성될 수 있는 경우. 예를 들어, 정삼각형(다면체 그룹 )의 대칭군은 회전과 반사에 의해 생성된다(도 4). 아래에서 자세히 논의할 1D translation group은 무한소 변위에 의해 생성되며, 이는 미분 가능한 대칭의 Lie group의 예입니다. 181818Lie groups has a differentiable manifold structure. 우리가 섹션 4.3에서 연구할 그러한 예 중 하나는 3차원 매니폴드인 특수 직교 그룹 이다.
여기에서 그룹 요소 are (예: 일부 도메인의 변환)는 말할 것도 없이 그룹이 추상 객체로 정의되었다는 점에 유의하십시오. 따라서, 매우 다른 종류의 물체들은 동일한 대칭 그룹을 가질 수 있다. 예를 들어, 앞서 언급한 삼각형의 회전 및 반사 대칭 그룹은 세 요소의 시퀀스의 순열 그룹과 동일하다(우리는 회전 및 반사를 사용하여 삼각형의 모서리를 어떤 방식으로든 순열할 수 있다 – 그림 4 참조)191919The diagram shown in Figure 4 (where each node is associated with a group element, and each arrow with a generator), is known as the Cayley diagram.).
Group Actions and Group Representations
그룹을 추상 엔터티로 간주하는 대신 데이터에 대한 그룹 act에 주로 관심이 있습니다. 우리는 데이터 아래에 일부 도메인 가 있다고 가정했기 때문에, 그룹이 (예: 평면의 점들의 변환)에 어떻게 작용하는지 연구할 것이며, 거기서 신호 (예: 평면 이미지 및 특징 맵의 변환)의 공간에서 동일한 그룹의 액션을 얻을 것이다.
group action 202020Technically, what we define here is a left group action.of on a set 는 group element 와 point with some other point in a group operation, 즉 for all and 를 매핑하는 것으로 정의된다. 우리는 다음 섹션에서 그룹 액션의 수많은 사례를 볼 것이다. 예를 들어, 평면에서 Euclidean group 는 유클리드 거리를 보존하는 의 변환 그룹212121Distance-preserving transformations are called isometries. According to Klein’s Erlangen Programme, the classical Euclidean geometry arises from this group.이며, 번역, 회전, 반사로 구성된다. 그러나 동일한 그룹은 images의 공간뿐만 아니라 (픽셀의 그리드를 번역, 회전 및 뒤집음으로써) 신경망에 의해 학습된 표현 공간에도 작용할 수 있다. 보다 정확하게는, 그룹 가 에 작용하는 경우, 스페이스 에 의 액션을 자동으로 획득한다:
| (3) |
에 대한 역수로 인해, 우리는 를 가졌다는 점에서, 이것은 실제로 유효한 그룹 액션이다.
이 텍스트 전체에서 반복적으로 마주칠 가장 중요한 그룹 액션의 종류는 linear 그룹 액션이며, group representations이라고도 합니다. 방정식 (3)의 신호에 대한 작용은 실제로 선형이다.
for any scalars and signals . We can describe linear actions either as maps that are linear in , or equivalently, by currying, as a map 222222When is infinte, the space of signals is infinite dimensional, in which case is a linear operator on this space, rather than a finite dimensional matrix. In practice, one must always discretise to a finite grid, though.that assigns to each group element an (invertible) matrix . The dimension of the matrix is in general arbitrary and not necessarily related to the dimensionality of the group or the dimensionality of , but in applications to deep learning will usually be the dimensionality of the feature space on which the group acts. For instance, we may have the group of 2D translations acting on a space of images with pixels.
일반적인 그룹 액션과 마찬가지로, 그룹 요소에 행렬의 할당은 그룹 액션과 양립할 수 있어야 한다. 보다 구체적으로, 복합 그룹 요소 를 나타내는 매트릭스는 및 의 표현의 매트릭스 곱과 같아야 한다:
Written in the language of group representations, the action of on signals is defined as . We again verify that
Invariant and Equivariant functions
The symmetry of the domain underlying the signals imposes structure on the function defined on such signals. It turns out to be a powerful inductive bias, improving learning242424In general, depends both on the signal an the domain, i.e., . We will often omit the latter dependency for brevity. efficiency by reducing the space of possible interpolants, , to those which satisfy the symmetry priors. Two important cases we will be exploring in this text are invariant and equivariant functions.
불변성의 고전적인 예는 shift-invariance,252525Note that signal processing books routinely use the term ‘shift-invariance’ referring to shift-equivariance, e.g. Linear Shift-invariant Systems. arising in computer vision and pattern recognition applications such such image classification. 이 경우의 함수 (대표적으로 Convolutional Neural Network로 구현됨)는 이미지를 입력하고, 이미지가 어떤 클래스(예: 고양이 또는 개)로부터 객체를 포함할 확률을 출력한다. 종종 분류 결과가 이미지 내의 객체의 위치에 영향을 받지 않아야 한다는 것, 즉 함수 는 시프트-불변적이어야 한다는 것이 합리적으로 가정된다. 매끄러운 기능에 근사할 수 있는 다층 퍼셉트론은 이러한 특성을 갖지 않는데, 1970년대 패턴 인식 문제에 이러한 아키텍처를 적용하려는 초기 시도가 실패한 이유 중 하나이다. 컨볼루션 신경망에 의해 전칭되는 지역 가중치 공유를 갖는 신경망 아키텍처의 개발은 다른 이유들 중에서도 시프트-불변 객체 분류의 필요성에 의해 동기가 부여되었다.
그러나 CNN의 컨볼루션 계층을 자세히 살펴보면 시프트 불변이 아니라 shift-equivariant: 즉, 컨볼루션 계층에 대한 입력의 시프트는 출력 특징 맵의 이동을 동일한 양만큼 생성한다.
컴퓨터 비전에 다시 정렬하여, 시프트-등분성이 요구되는 프로토타입 애플리케이션은 이미지 분할이며, 여기서 의 출력은 픽셀-와이즈 이미지 마스크이다. 명백히, 분할 마스크는 입력 이미지에서 시프트들을 따라야 한다. 이 예에서, 입력과 출력의 도메인은 동일하지만, 출력이 클래스당 하나의 채널을 갖는 동안 입력이 세 개의 컬러 채널을 갖기 때문에, 표현 및 는 다소 상이하다.
그러나, 이미지 분류의 이전 사용 사례조차도 일반적으로 컨볼루션(shift-equivariant) 계층의 시퀀스로 구현되고, 이어서 글로벌 풀링(shift-invariant)이 뒤따른다. 3.5절에서 살펴보겠지만, 이는 CNN 및 GNN(Graph Neural Networks)을 포함한 대부분의 딥 러닝 아키텍처의 일반적인 청사진이다.
3.2 Isomorphisms and Automorphisms
Subgroups and Levels of structure
앞서 언급한 바와 같이, 대칭272727Invertible and structure-preserving maps between different objects often go under the generic name of isomorphisms (Greek for ‘equal shape’). An isomorphism from an object to itself is called an automorphism, or symmetry.은 일부 속성 또는 구조를 보존하는 변환이며, 주어진 구조에 대한 이러한 모든 변환의 집합은 대칭 그룹을 형성한다. 하나의 구조가 아닌 여러 개의 관심 구조가 있는 경우가 많기 때문에 여러 levels of structure on our domain 를 고려할 수 있다. 따라서 대칭으로 간주되는 것은 고려 중인 구조에 따라 다르지만 모든 경우에 대칭은 이 구조를 존중하는 가역 지도이다.
가장 기본적인 레벨에서, 도메인 는 set, 이는 최소한의 구조를 갖는다: 우리가 말할 수 있는 모든 것은, 세트가 일부 cardinality28282828유한 집합에 대해, 카디널리티는 집합의 이 구조를 보존하는 자체 지도는 bijections (invertible maps)이며, 이는 세트 레벨 대칭으로 간주할 수 있다. 공리를 확인함으로써 이것이 그룹임을 쉽게 확인할 수 있다 : 두 개의 바이젝션의 구성은 바이젝션(클로저)이기도 하고, 연관성은 함수 구성의 연관성에서 비롯되며, 맵 는 아이덴티티 요소이고, 모든 에 대해 정의상 역이 존재하여 를 만족한다.
애플리케이션에 따라, 추가적인 레벨의 구조가 존재할 수 있다. 예를 들어, 가 토폴로지 공간인 경우, continuity: 이러한 맵을 homeomorphisms이라고 하며, 세트 간의 간단한 바이젝션 외에도 연속적이며 연속 역수를 갖는다. 직관적으로, 연속 함수는 잘 행동하고, 점 를 중심으로 이웃(열린 집합) 내의 점들을 를 중심으로 이웃에 매핑한다.
하나는 맵 및 그 역이 (연속적으로) differentiable,292929Every differentiable function is continuous. If the map is continuously differentiable ‘sufficiently many times’, it is said to be smooth.i.e., 맵 및 그 역은 모든 지점에서 도함수를 갖는다(그리고 도함수도 연속적이다). 이것은 차별화 가능한 매니폴드와 함께 제공되는 추가적인 차별화 가능한 구조를 필요로 하며, 여기서 이러한 맵은 diffeomorphisms로 지칭되고 로 표시된다. 우리가 만날 구조의 추가 예에는 distances 또는 metrics(이를 보존하는 지도는 isometries) 또는 orientation이 있습니다.
고려해야 할 적절한 구조의 수준은 문제에 달려 있다. 예를 들어, 조직병리학 슬라이드 이미지를 분할할 때, 우리는 이미지의 뒤집힌 버전을 동등한 것으로 고려하기를 원할 수 있지만(현미경 아래에 놓으면 샘플이 뒤집힐 수 있기 때문에), 도로 표지판을 분류하려고 한다면, 방향 보존 변환을 대칭으로 고려하기를 원할 것이다(반사가 기호의 의미를 변경할 수 있기 때문에).
보존할 구조의 수준을 더하면 대칭군은 작아질 것이다. 실제로, 구조를 추가하는 것은 subgroup, 이는 그 자체로 그룹의 공리를 만족하는 더 큰 그룹의 하위 집합이다:
예를 들어, 유클리드 이소메트리 의 그룹은 평면 디페오모프리즘 의 그룹의 하위 그룹이고, 차례로 배향 보존 이소메트리 의 그룹은 의 하위 그룹이다. 이 구조의 위계는 서문에 요약된 Erlangen Programme 철학을 따릅니다. 클라인의 구성에서 Projective, Affine 및 유클리드 기하학은 점점 더 불변하고 점진적으로 더 작은 그룹에 해당합니다.
Isomorphisms and Automorphisms
우리는 대칭을 구조 보존 및 반전 가능한 맵 from a object to itself으로 설명했다. 이러한 맵은 또한 automorphisms으로 알려져 있으며, 오브젝트가 자신과 동등한 방식을 설명한다. 그러나 맵의 동등하게 중요한 클래스는 두 비동일 객체 간의 동등성을 나타내는 소위 isomorphisms이다. 이러한 개념은 종종 통합되지만 다음 논의에 대한 명확성을 만들기 위해서는 이를 구별하는 것이 필요하다.
To understand the difference, consider a set . An automorphism of the set is a bijection such as a cyclic shift . Such a map preserves the cardinality property, and maps onto itself. If we have another set with the same number of elements, then a bijection such as , , is a set isomorphism.
그래프에 대한 섹션 4.1에서 볼 수 있듯이 구조의 개념은 노드의 수뿐만 아니라 연결성도 포함한다. 따라서 두 그래프 사이의 동형 와 는 연결된 노드의 쌍을 연결된 노드의 쌍에 매핑하는 노드 사이의 바이젝션이고, 마찬가지로 연결되지 않은 노드의 쌍에 대해서도 마찬가지이다. 30303030I.e., iff . 따라서 두 개의 동형 그래프는 구조적으로 동일하며 노드의 순서만 다르다. 313131
The Folkman graph (Folkman, 1967) is a beautiful example of a graph with 3840 automorphisms, exemplified by the many symmetric ways to draw it.반면에 그래프 오토모피즘 또는 대칭은 연결성을 유지하면서 그래프의 노드를 다시 자신에게 매핑하는 맵 이다. 비-사소한 오토모피즘(즉, )을 갖는 그래프는 대칭을 제시한다.
3.3 Deformation Stability
섹션 3.1–3.2에서 소개된 대칭 형식주의는 어떤 변환이 대칭으로 간주될지 정확히 알고 있는 이상적인 세계를 포착하며, 이러한 대칭을 존중하고자 한다 exactly. 예를 들어 컴퓨터 비전에서 우리는 평면 병진이 정확한 대칭이라고 가정할 수 있다. 그러나 현실 세계는 시끄럽고 이 모델은 두 가지 면에서 부족합니다.
Two objects moving at different velocities in a video define
a transformation outside the translation group.
먼저, 이들 단순 그룹들은 global 도메인 의 대칭들을 이해하는 방법을 제공하지만 (그리고 확장하여, 그것에 대한 신호들의, ), 그들은 local 대칭들을 잘 포착하지 못한다. 예를 들어, 각각이 다른 방향을 따라 움직이는 여러 객체가 있는 비디오 장면을 고려한다. 후속 프레임들에서, 결과적인 장면은 대략 동일한 시맨틱 정보를 포함할 것이지만, 어느 전역 번역도 한 프레임으로부터 다른 프레임으로의 변환을 설명하지 못한다. 카메라에 의해 보여지는 변형가능한 3D 객체와 같은 다른 경우들에서, 객체 동일성을 보존하는 변환들의 그룹을 기술하는 것은 단순히 매우 어렵다. 이러한 예는 실제로 우리가 글로벌하고 정확한 불변성이 로컬하고 부정확한 변형으로 대체되는 훨씬 더 큰 변형 세트에 더 관심이 있음을 보여준다. 우리의 논의에서, 도메인 가 고정된 설정과 신호 가 변형을 겪고 있는 설정과 도메인 자체가 변형될 수 있는 설정의 두 시나리오를 구별할 것이다.
Stability to signal deformations
많은 응용에서, 우리는 신호 의 작은 변형이 의 출력을 바꾸지 않아야 한다는 선험적인 사실을 알고 있으므로, 그러한 변형을 대칭으로 간주하는 것은 유혹적이다. 예를 들어, 우리는 작은 디피모프리즘 , 또는 작은 바이젝션까지 대칭으로 볼 수 있다. 그러나, 작은 변형들은 큰 변형을 형성하기 위해 구성될 수 있으므로, "작은 변형들"은 그룹을 형성하지 않는다, 333333E.g., 두 개의 -isometries의 구성은 -isometry, closure 속성을 위반한다. and we ask for invariance or equivariance to small deformation only. 큰 변형은 입력의 의미 내용을 실제로 물질적으로 변화시킬 수 있기 때문에, 전체 그룹 를 대칭 그룹으로 사용하는 것도 좋은 생각이 아니다.
A better approach is to quantify how “far” a given is from a given symmetry subgroup (e.g. translations) with a complexity measure , so that whenever . We can now replace our previous definition of exact invariance and equivarance under group actions with a ‘softer’ notion of deformation stability (or approximate invariance):
| (4) |
where as before, and where is some constant independent of the signal . A function satisfying the above equation is said to be geometrically stable. We will see examples of such functions in the next Section 3.4.
Since for , this definition generalises the -invariance property defined above. Its utility in applications depends on introducing an appropriate deformation cost. In the case of images defined over a continuous Euclidean plane, a popular choice is , which measures the ‘elasticity’ of , i.e., how different it is from the displacement by a constant vector field. This deformation cost is in fact a norm often called the Dirichlet energy, and can be used to quantify how far is from the translation group.
Stability to domain deformations
많은 응용에서, 변형되는 오브젝트는 신호가 아니라 기하학적 도메인 자체이다. 이것의 정규 인스턴스들은 그래프 및 다양체를 다루는 애플리케이션들이다: 그래프는 약간 상이한 사회적 관계들을 포함하는 상이한 시간의 인스턴스에서 소셜 네트워크를 모델링할 수 있거나(다음 그래프), 또는 다양체는 비-강성 변형을 겪는 3D 오브젝트를 모델링할 수 있다. 이러한 변형은 다음과 같이 정량화될 수 있다. 가 가능한 모든 가변 도메인의 공간(모든 그래프의 공간, 또는 리만니안 매니폴드의 공간 등)을 나타내는 경우, 에 대해 적절한 메트릭(‘거리’)을 정의할 수 있는 가 를 만족하는 와 가 어떤 의미에서는 등가인 경우, 예를 들어 그래프 편집 거리는 그래프가 동형일 때 사라지고, 지오데식 거리가 장착된 리만니안 매니폴드 사이의 그로모프-하우스도르프 거리는 두 매니폴드가 등형일 때 사라진다. 343434The graph edit distance measures the minimal cost of making two graphs isomorphic by a sequences of graph edit operations. The Gromov-Hausdorff distance measures the smallest possible metric distortion of a correspondence between two metric spaces, see Gromov (1981).
도메인 간의 이러한 거리의 일반적인 구성은 해당 구조가 가장 잘 보존되는 방식으로 도메인을 '정렬'하려고 시도하는 역 매핑 의 일부 패밀리에 의존한다. 예를 들어, 그래프 또는 리만니안 매니폴드의 경우(측지선 거리를 갖는 메트릭 공간으로 간주됨), 이 정렬은 쌍별 인접성 또는 거리 구조를 비교할 수 있다( 및 각각),
where is the group of isomorphisms such as bijections or isometries, and the norm is defined over the product space . In other words, a distance between elements of is ‘lifted’ to a distance between the domains themselves, by accounting for all the possible alignments that preserve the internal structure. 353535Two graphs can be aligned by the Quadratic Assignment Problem (QAP), which considers in its simplest form two graphs of the same size , and solves , where are the respective adjacency matrices and is the group of permutation matrices. The graph edit distance can be associated with such QAP (Bougleux et al., 2015). Given a signal and a deformed domain , one can then consider the deformed signal .
By slightly abusing the notation, we define as the ensemble of possible input signals defined over a varying domain. A function is stable to domain deformations if
| (5) |
모든 , 에 대하여. 우리는 등척성 변형이 중요한 역할을 하는 섹션 4.4–4.6에서 다양체의 맥락에서 안정성 개념에 대해 논의할 것이다. 또한, 영역 변형에 대한 안정성은 체적 형태 Gama et al. (2019)의 변형 측면에서 후자를 관찰함으로써 신호 변형에 대한 안정성의 자연스러운 일반화임을 보여줄 수 있다.
3.4 Scale Separation
변형 안정성이 전역 대칭 이전을 실질적으로 강화하지만, 차원성의 저주를 극복하는 것 자체로는 충분하지 않지만, 비공식적으로 말하면 도메인의 크기가 커짐에 따라 (4)를 존중하는 "너무 많은" 함수가 여전히 존재한다는 의미에서. 이 저주를 극복하기 위한 핵심 통찰은 물리적 작업의 멀티스케일 구조를 이용하는 것이다. 멀티스케일 표현을 설명하기 전에, 우리는 규모보다는 주파수에 의존하는 푸리에 변환의 주요 요소들을 소개할 필요가 있다.
Fourier Transform and Global invariants
363636
Fourier basis functions have global support. As a result, local signals produce energy across all frequencies. 가장 유명한 신호 분해는 Fourier transform의 초석이다. 고전적인 1차원 푸리에 변환
expresses the function on the domain is linear combination of orthogonal oscillating basis functions , indexed by their rate of oscillation (or frequency) . 주파수로의 그러한 조직은 신호에 대한 중요한 정보, 예를 들어 그것의 매끄러움 및 지역화를 드러낸다. 푸리에 기저 자체는 깊은 기하학적 기초를 가지며, 그 기하학적 구조와 관련된 도메인의 자연 진동으로 해석될 수 있다(예를 들어, Berger (2012) 참조).
푸리에 변환 3737(cross-)correlationplays a crucial role in signal processing as be dual formulation of convolution,
선형 신호 필터링의 표준 모델(이하, 는 신호를 나타내고 는 필터를 나타냄). 다음에서 보여주겠지만, 컨볼루션 연산자는 푸리에 기저로 대각화되어, 컨볼루션이 각각의 푸리에 변환의 곱으로 표현될 수 있게 하고,
신호처리에서 컨볼루션 정리로 알려진 사실.
알고 보니, 라플라시안과 같은 많은 근본적인 미분 연산자들은 유클리드 영역에 대한 컨볼루션으로 기술되어 있다. 이러한 미분 연산자는 매우 일반적인 기하학에 대해 본질적으로 정의될 수 있기 때문에 그래프, 그룹 및 다양체를 포함하여 유클리드 영역을 넘어 푸리에 변환을 확장하는 공식 절차를 제공한다. 이에 대해서는 4.4 절에서 자세히 논의할 것이다.
푸리에 변환의 필수 측면은 신호 및 도메인의 global 속성, 예컨대 평활도 또는 컨덕턴스를 드러낸다는 것이다. 이러한 전역적 행동은 번역과 같은 도메인의 전역적 대칭이 있는 경우 편리하지만 보다 일반적인 차이를 연구하지는 않는다. 이것은 우리가 다음에 보는 바와 같이 공간 및 주파수 지역화를 거래하는 표현을 필요로 한다.
Multiscale representations
로컬 불변성의 개념은 푸리에 주파수 기반 표현에서 scale-based 표현, wavelets과 같은 다중 스케일 분해 방법의 초석이다. 383838See Mallat (1999) for a comperehensive introduction. Multi-scale 방법의 본질적인 통찰은 도메인 에 걸쳐 정의된 함수를 로컬화된 both in space and frequency인 기본 함수로 분해하는 것이다. 393939
Contrary to Fourier, wavelet atoms are localised and multi-scale, allowing to capture fine details of the signal with atoms having small spatial support and coarse details with atoms having large spatial support. The term atom here is synonymous with ‘basis element’ in Fourier analysis, with the caveat that wavelets are redundant (over-complete). 웨이블릿의 경우, 이는 번역된 확장 필터(mother wavelet) , a continuous wavelet transform이라고 불리는 결합된 spatio-frequency 표현을 생성함으로써 달성된다.
번역 및 확장된 필터는 wavelet atoms이라고 하며, 이들의 공간 위치 및 확장은 웨이브렛 변환의 좌표 및 에 해당한다. 이러한 좌표는 일반적으로 다이아딕( 및 )으로 샘플링되며, 는 scale로 지칭된다. 다중 스케일 신호 표현은 부분적 평활도와 같은 전역적 평활도를 넘어 규칙성 특성을 포착하는 측면에서 중요한 이점을 가져오며, 이는 90년대 신호 및 이미지 처리 및 수치 분석에서 인기 있는 도구로 만들었다.
Deformation stability of Multiscale representations:
푸리에 분해보다 다중스케일 국부 웨이블릿 분해의 이점은 기본 대칭 그룹 '근처'의 작은 변형의 영향을 고려할 때 드러난다. 유클리드 영역과 번역 그룹에서 이 중요한 개념을 설명해보자. 푸리에 표현은 시프트 연산자를 대각화하므로(Convolution으로 생각할 수 있으며, 섹션 4.2에서 더 자세히 볼 수 있듯이), 번역 변환을 위한 효율적인 표현이다. 그러나, 푸리에 분해는 고주파 변형 하에서 불안정하다. 반면 웨이블릿 분해는 이러한 경우에 안정적인 표현을 제공한다.
Indeed, let us consider and its associated linear representation . When is a shift, as we will verify in Section 4.2, the operator is a shift operator that commutes with convolution. Since convolution operators are diagonalised by the Fourier transform, the action of shift in the frequency domain amounts to shifting the complex phase of the Fourier transform,
Thus, the Fourier modulus removing the complex phase is a simple shift-invariant function, . However, if we have only approximate translation, with , the situation is entirely different: it is possible to show that
가 얼마나 작은지에 관계없이(즉, 가 시프트인 것에 얼마나 가까운가). 결과적으로 이러한 푸리에 표현은 unstable under deformations이지만 작다. 이 불안정성은 일반 도메인과 비강체 변환에서 나타나며, 섹션 4.4에서 설명한 푸리에 변환의 자연 확장을 사용한 3d 도형 분석에서 이 불안정성의 또 다른 사례를 볼 것이다.
웨이블릿은 또한 다중 스케일 표현의 힘을 드러내는 이 문제에 대한 해결책을 제공한다. 상기 예에서, 웨이블릿 분해 가 approximately equivariant to deformations임을 (Mallat, 2012)로 나타낼 수 있고,
즉, 주파수가 아닌 국부화된 필터를 사용하여 신호 정보를 스케일로 분해하면 전역적으로 불안정한 표현이 국부적으로 안정적인 특징의 패밀리로 전환된다. 중요하게도, 다른 스케일에서의 이러한 측정은 아직 불변하지 않으며, 현대 신경망의 깊은 구성 특성을 암시하면서 저주파를 향해 점진적으로 처리될 필요가 있으며, 다음에 제시된 기하학 딥 러닝을 위한 블루프린트에 캡처된다.
Scale Separation Prior:
We can build from this insight by considering a multiscale coarsening of the data domain into a hierarchy . As it turns out, such coarsening can be defined on very general domains, including grids, graphs, and manifolds. Informally, a coarsening assimilates nearby points together, and thus only requires an appropriate notion of metric in the domain. If denotes signals defined over the coarsened domain , we informally say that a function is locally stable at scale if it admits a factorisation of the form , where is a non-linear coarse graining and . In other words, while the target function might depend on complex long-range interactions between features over the whole domain, in locally-stable functions it is possible to separate the interactions across scales, by first focusing on localised interactions that are then propagated towards the coarse scales.
이러한 원리41414141Fast Multipole Method (FMM)는 원래 -body problems에서 롱-레인지된 힘의 계산을 빠르게 하기 위해 개발된 수치 기법이다. FMM은 가까이 놓여 있는 소스를 그룹화하여 하나의 소스로 취급한다. 은 소위 재규격화 그룹의 통계 물리학에서 나타나는 것처럼 물리학과 수학의 많은 분야에서 근본적인 중요성을 갖거나 빠른 다중극법 같은 중요한 수치 알고리즘에서 활용된다. 기계 학습에서 멀티스케일 표현 및 로컬 불변성은 Convolutional Neural Networks 및 Graph Neural Networks의 효율성을 뒷받침하는 기본 수학적 원리이며 일반적으로 local pooling의 형태로 구현된다. 향후 연구에서는 이러한 원리를 기하 영역에 걸쳐 통합하는 계산 조화 분석에서 도구를 추가로 개발하고 스케일 분리의 통계적 학습 이점을 밝힐 것이다.
3.5 The Blueprint of Geometric Deep Learning
3.1–3.4 섹션에서 논의된 대칭, 기하학적 안정성 및 스케일 분리의 기하학적 원리는 결합되어 고차원 데이터의 안정적인 표현을 학습하기 위한 보편적인 청사진을 제공할 수 있다. 이들 표현들은 대칭 그룹 가 부여된 도메인 에 정의된 신호들 상에서 동작하는 함수들 에 의해 생성될 것이다.
지금까지 설명한 기하학적 사전은 이러한 표현을 구축하기 위한 특정 architecture을 규정하지 않고 오히려 일련의 필요한 조건을 규정한다. 그러나, 그들은 이러한 기하학적 전적을 증명 가능하게 만족시키는 공리적 구성을 암시하는 한편, 그러한 전적을 만족시키는 임의의 목표 함수를 근사화할 수 있는 고도로 표현적 표현을 보장한다.
간단한 초기 관찰은, 고도로 표현적인 표현을 얻기 위해, 우리는 비선형 요소를 도입해야 하는데, 가 선형이고 -불변인 경우, 모든 에 대해, 42424242여기서, 는 Haar measure 그룹의 전체 그룹에 걸쳐 적분된다.
이는 만이 에 의존함을 나타낸다. -average 이미지 및 번역의 경우, 이는 입력의 평균 RGB 색상만을 사용하는 것을 수반할 것이다!
While this reasoning shows that the family of linear invariants is not a very rich object, the family of linear equivariants provides a much more powerful tool, since it enables the construction of rich and stable features by composition with appropriate non-linear maps, as we will now explain. Indeed, if is -equivariant satisfying for all and , and is an arbitrary (non-linear) map, then we easily verify that the composition is also -equivariant, where is the element-wise instantiation of given as .
이 간단한 성질은 그룹 평균 로 를 구성함으로써, -불변의 매우 일반적인 패밀리를 정의할 수 있게 해준다. 따라서, 자연적인 질문은 임의의 -불변 함수가, 및 의 적절한 선택에 대해, 그러한 모델에 의해 임의의 정밀도로 근사화될 수 있는지 여부이다. 그룹 평균을 일반적인 비선형 불변으로 적절하게 일반화함으로써 얕은 '기하학적' 네트워크도 보편적인 근사기임을 보여주기 위해 구조화되지 않은 벡터 입력에서 표준 범용 근사 정리를 적용하는 것은 어렵지 않다. 434343Such proofs have been demonstrated, for example, for the Deep Sets model by Zaheer et al. (2017).그러나 푸리에 대 웨이브렛 불변량의 경우에서 이미 설명한 바와 같이 얕은 전역 불변량과 변형 안정성 사이에는 근본적인 장력이 존재한다. 이것은 대신 localised equivariant map을 고려하는 대체 표현에 동기를 부여합니다. 444444Meaningful metrics can be defined on grids, graphs, manifolds, and groups. A notable exception are sets, where there is no predefined notion of metric. 가 거리 메트릭 를 더 갖추고 있다고 가정하면, localised if 는 for , for 일부 작은 반지름 의 값에만 의존하는 경우 등분산 맵 localised>을 호출하고, 후자의 세트 는 receptive 필드이라고 부른다.
로컬 등분산 맵 의 단일 레이어는 장거리 상호 작용으로 함수를 근사화할 수 없지만, 여러 로컬 등분산 맵 의 구성은 로컬 등분산들의 안정성 속성을 보존하면서 수용 필드454545The term ‘receptive field’ originated in the neuroscience literature, referring to the spatial domain that affects the output of a given neuron.을 증가시킨다. 수용 필드는 도메인을 조대화(메트릭 구조를 다시 가정함)하는 다운샘플링 연산자를 인터리빙하여 다중해상도 분석(MRA, 예를 들어 Mallat (1999) 참조)으로 병렬화를 완료함으로써 더욱 증가한다.
요약하면, 밑줄 대칭 그룹에 대한 지식을 가진 입력 도메인의 기하학적 구조는 (i) 로컬 등분산 맵, (ii) 전역 불변 맵 및 (iii) 조대화 연산자의 세 가지 핵심 구성 요소를 제공한다. 이러한 빌딩 블록들은 우리가 Geometric Deep Learning Blueprint (그림8)로 지칭하는 스킴에서 이들을 함께 조합함으로써 규정된 불변 및 안정성 속성을 갖는 풍부한 함수 근사 공간을 제공한다.
Different settings of Geometric Deep Learning
하나는 도메인 가 fixed로 가정될 때 설정을 중요하게 구별할 수 있으며, 하나는 해당 도메인에 정의된 다양한 입력 신호에만 관심이 있거나, 도메인이 그 도메인에 정의된 신호와 함께 varies로 입력의 일부이다. 이전 사례의 고전적인 사례는 이미지가 고정된 도메인(그리드)에 정의된 것으로 가정되는 컴퓨터 비전 애플리케이션에서 마주친다. 그래프 분류는 후자의 설정의 예로서, 그래프의 구조뿐만 아니라 그것에 정의된 신호(예를 들어, 노드 특징들)가 모두 중요하다. 다양한 도메인의 경우 기하학적 안정성(의 변형에 둔감한 의미)이 기하학 딥 러닝 아키텍처에서 중요한 역할을 한다.
이 설계도는 광범위한 기하학 영역에 걸쳐 사용할 수 있는 적절한 수준의 일반성을 가지고 있다. 따라서 상이한 기하학적 딥 러닝 방법들은 도메인, 대칭 그룹, 및 전술한 빌딩 블록들의 특정 구현 세부사항들의 선택에서 상이하다. 다음에서 볼 수 있듯이 현재 사용 중인 대규모 딥러닝 아키텍처는 이 스킴에 속하며 따라서 공통 기하 원리에서 파생될 수 있다.
다음 섹션들 (4.1–4.6)에서는 ‘5G’를 중심으로 다양한 기하학적 도메인들을 설명하고, 섹션들 5.1–5.8에서는 이러한 도메인들에 대한 Geometric Deep Learning의 구체적인 구현들을 설명한다.
4 Geometric Domains: the 5 Gs
우리 텍스트의 주요 초점은 그래프, 그리드, 그룹, 측지선 및 게이지에 있습니다. 이러한 맥락에서, '그룹'에 의해 우리는 동질 공간에서 전역 대칭 변환을 의미하고, 다양체의 '지오데식스' 메트릭 구조에 의해, 그리고 접선 번들(및 일반적으로 벡터 번들)에 정의된 '게이즈' 로컬 참조 프레임에 의해 의미된다. 이러한 개념들은 추후 보다 상세히 설명될 것이다. 다음 절에서는 공통의 주요 요소와 이러한 구조 사이의 주요 구별 특징에 대해 자세히 논의하고 이와 관련된 대칭 그룹을 설명한다. 우리의 설명은 일반성의 순서가 아니라, 사실 그리드는 특정한 그래프의 경우이지만, 기하 딥러닝 청사진의 기초가 되는 중요한 개념을 강조하는 방법이다.
4.1 Graphs and Sets
사회학에서 입자 물리학에 이르기까지 과학의 여러 분야에서 그래프는 관계와 상호 작용 시스템의 모델로 사용된다. 우리의 관점에서 그래프는 순열 그룹으로 모델링된 매우 기본적인 유형의 불변성을 발생시킨다. 더욱이, 격자 및 집합과 같은 우리에게 관심있는 다른 객체들은 그래프의 특정한 경우로서 획득될 수 있다.
A graph 는 nodes464646Depending on the application field, nodes may also be called vertices, and edges are often referred to as links or relations. We will use these terms interchangeably. 및 edges 의 집합이다. 다음 논의의 목적을 위해, 우리는 더 나아가, -dimensional node features,로 표기된 모든 로 가정한다. 소셜 네트워크는 아마도 가장 일반적으로 연구되는 그래프의 예 중 하나이며, 여기서 노드는 사용자를 나타내고, 에지는 그들 사이의 우정 관계에 해당하며, 노드는 나이, 프로필 사진 등과 같은 모델 사용자 속성을 특징으로 한다. 간선 또는 전체 그래프에 기능을 부여하는 것도 종종 가능하지만, 474747
Isomorphism is an edge-preserving bijection between two graphs. Two isomorphic graphs shown here are identical up to reordering of their nodes. 이 이 섹션의 주요 결과를 변경하지 않기 때문에 향후 작업으로 논의를 연기할 것이다.
그래프들의 주요 구조적 성질은 의 노드들은 보통 임의의 특정한 순서로 제공되는 것으로 가정되지 않으며, 따라서 그래프들에 대해 수행되는 임의의 동작들은 노드들의 순서화에 의존하지 않아야 한다는 것이다. 그래프에 작용하는 함수가 만족해야 하는 바람직한 속성은 따라서 permutation invariance이며, 이는 두 개의 isomorphic 그래프에 대해 이러한 함수의 결과가 동일함을 의미한다. 이를 우리의 청사진의 특정 설정으로 볼 수 있는데, 여기서 도메인 와 공간 는 -dimensional node-wise signal의 설정이다. 우리가 고려하는 대칭성은 permutation group 에 의해 주어지며, 이들의 요소는 모두 노드 인덱스 집합 의 가능한 순서이다.
먼저 sets, 에지가 없는 그래프의 특수한 경우(즉, )에 대한 순열 불변 개념을 설명한다. 행렬 의 행으로 노드 특징을 쌓음으로써 노드의 순서를 효과적으로 지정할 수 있다. 노드의 집합에 대한 순열 의 작용은 순열 행렬 , 4848484848 그러한 순열이 정확히 존재하므로, 는 적당한 여기서 각 행과 열은 정확히 하나의 를 포함하고 나머지 모든 엔트리는 0이다.
A function operating on this set is then said to be permutation invariant if, for any such permutation matrix , it holds that . One simple such function is
| (6) |
여기서 함수 는 모든 노드의 기능에 독립적으로 적용되고, 는 그 sum-aggregated 출력들: 합이 그 입력이 제공되는 순서와 무관하기 때문에, 그러한 함수는 노드 세트의 순열에 대해 불변하며, 따라서 노드들이 어떻게 순열되더라도 항상 동일한 출력을 반환하도록 보장된다.
위와 같은 함수는 '글로벌' 그래프 단위 출력을 제공하지만, 매우 자주 우리는 노드 단위 방식으로 '로컬'로 작동하는 함수에 관심을 가질 것이다. 예를 들어, 모든 노드에서 특성인 update에 일부 함수를 적용하여 latent 노드 특성의 집합을 얻을 수 있습니다. 이러한 잠재 피쳐를 행렬 49494949우리는 함수 에 굵은 표기법을 사용하여 노드별 벡터 피쳐를 출력하므로 행렬 값 함수입니다. is no permutation invariant: 의 행의 순서는 tied to the rows of 이므로 어떤 출력 노드 특징이 어떤 입력 노드에 해당하는지를 알 수 있다. 대신 permutation equivariance의 더 세밀한 개념이 필요하며, 일단 입력의 순열에 "커밋"하면 결과 객체를 일관되게 순열한다. 형식적으로, 는 permutation equivariant function if, any permutation matrix , 라고 가정한다. 공유 노드별 선형 변환
| (7) |
가중치 행렬 로 지정되는 것은 이러한 순열 등분산 함수의 한 가지 가능한 구성으로서, 형태의 잠재 특징을 생성한다.
이 구조는 기하학 딥 러닝 청사진에서 자연스럽게 발생합니다. 먼저 linear equivariants(형태 의 함수)를 특성화할 수 있으며, 이러한 맵이 두 generators, identity 및 average 의 선형 조합으로 작성될 수 있음을 쉽게 확인할 수 있다. 5.4절에서 설명하는 바와 같이, 인기 있는 Deep Sets (Zaheer et al., 2017) 아키텍처는 정확하게 이 청사진을 따른다.
We can now generalise the notions of permutation invariance and equivariance from sets to graphs. In the generic setting , the graph connectivity can be represented by the adjacency matrix ,505050When the graph is undirected, i.e. iff , the adjacency matrix is symmetric, . defined as
| (8) |
이제 인접성 및 특징 매트릭스 및 는 "동기화되어 있음", 가 th 및 의
| (9) |
and (a node-wise function)
| (10) |
for any permutation matrix
여기서 다시, 우리는 먼저 선형 등분산 함수들을 특성화할 수 있다. 535353이는 Bell number
A (undirected) neighbourhood of node
| (11) |
and the neighbourhood features as the multiset
| (12) |
1-홉 이웃에서 작동하는 것은 청사진의 locality 측면과 잘 일치합니다. 즉, 그래프를 통해 메트릭을
따라서 GDL 설계도는 노드 및 그 이웃,
| (13) |
이 예에서 집합에 정의된 함수와 보다 일반적인 그래프 사이의 차이는 후자의 경우 도메인의 구조를 명시적으로 설명할 필요가 있다는 점도 주목할 가치가 있다. 그 결과, 그래프는 머신 러닝 문제에서 도메인이 입력의 일부이 된다는 의미에서 구별되지만, 세트 및 그리드(두 그래프의 특정 경우)를 처리할 때 피쳐만 지정하고 도메인을 fixed으로 가정할 수 있습니다. 이러한 구분은 우리의 논의에서 반복되는 모티브가 될 것이다. 그 결과, 그래프에 대한 대부분의 학습 문제에서 기하학적 안정성(영역 변형에 대한 불변) 개념이 매우 중요하다. 순열 불변 및 등분산 함수가 동형(위상-등가) 그래프에서 동일한 출력을 생성한다는 것은 우리의 구성에서 쉽게 따른다. 이러한 결과는 대략적인 동형 그래프로 일반화될 수 있으며, 그래프 섭동 하에서 안정성에 대한 몇 가지 결과는 (Levie et al., 2018)가 존재한다. 우리는 다양체에 대한 논의에서 이 중요한 지점으로 돌아갈 것이며, 우리는 그러한 불변성을 더 자세히 연구하기 위한 수단으로 사용할 것이다.
둘째, 그래프와 그리드는 추가적인 구조로 인해 집합과 달리 단순하지 않은 방식565656More precisely, we cannot define a non-trivial coarsening assuming set structure alone. There exist established approaches that infer topological structure from unordered sets, and those can admit non-trivial coarsening.으로 조대화될 수 있어 다양한 풀링 연산이 발생한다.
4.2 Grids and Euclidean spaces
우리가 고려하는 두 번째 유형의 객체는 그리드입니다. 딥러닝의 영향은 컴퓨터 비전, 자연어 처리, 음성 인식 등에서 특히 극적이었다고 해도 과언이 아니다. 이러한 응용 프로그램은 모두 기본 그리드 구조라는 기하학적 공통 분모를 공유합니다. 이미 언급했듯이 그리드는 특별한 인접성을 가진 그래프의 특수한 경우이다. 그러나 그리드 내의 노드들의 순서는 고정되어 있기 때문에, 그리드 상에 정의된 신호들에 대한 머신 러닝 모델들은 더 이상 순열 불변성을 설명할 필요가 없으며, 보다 강한 기하학적 선행인 변환 불변성을 갖는다.
Circulant matrices and Convolutions
Let us dwell on this point in more detail. Assuming for simplicity periodic boundary conditions, we can think of a one-dimensional grid as a ring graph575757
with nodes indexed by
기계 학습 문헌에서 때때로 "가중치 공유"로 지칭되는, 각각의 대각선을 따라 하나의 요소가 반복되는 이 매우 특별한 다중 대각선 구조에 주목하라.
More generally, given a vector
as one has
Circulant matrices can be characterised by their commutativity property: the product of circulant matrices is commutative, i.e.
근본적인 대칭군(번역군)이 아벨리아인이기 때문에 이러한 교환성 성질은 놀라운 일이 아닐 것이다. 더욱이, 반대 방향도 참인 것으로 보이며, 즉 매트릭스는 시프트와 함께 통근하면 순환한다. 이를 통해 define convolution을 번역 등분산 선형 연산으로 사용할 수 있으며, 기하학적 전치의 힘과 Geometric ML의 전반적인 철학의 멋진 예시입니다: convolution은 번역 대칭의 첫 번째 원리에서 나옵니다.
집합 및 그래프의 상황과 달리 선형 독립 시프트-equivariant 함수(convolutions) grows의 수는 도메인의 크기에 따라 달라집니다(순환 행렬의 각 대각선에 하나의 자유도가 있기 때문입니다). 그러나 스케일 분리 사전 보장 필터는 Convolutional Neural Network 아키텍처의 구현에서 이러한 원칙의 사용을 논의할 때 섹션 5.1에서 확인할 수 있듯이 local으로 인해 레이어당 동일한
Derivation of the discrete Fourier transform
우리는 이미 푸리에 변환과 컨볼루션에 대한 연결에 대해 언급했는데, 푸리에 변환이 컨볼루션 연산을 대각화한다는 사실은 푸리에 변환의 요소별 곱으로서 주파수 영역에서 컨벌루션을 수행하기 위해 신호 처리에 사용되는 중요한 속성이다. 그러나 교과서에서는 일반적으로 이러한 사실만 언급하고 있으며, 푸리에 기반에 대한 where 푸리에 변환이 유래하고 이에 대한 special을 설명하는 경우는 거의 없다. 여기서 우리는 그것을 보여줄 수 있는데, 어떻게 기초적인 것이 대칭의 기본 원리인지 다시 한번 보여준다.
이를 위해 linear616161우리는 별개의 고유값을 추가로 가정해야 합니다. 그렇지 않으면 여러 개의 가능한 대각선이 있을 수 있습니다. 이 가정은 which we can arrange into an
모든 순환 행렬은 공동으로 대각화가 가능하기 때문에, 64646464 푸리에 변환은 직교 행렬(
푸리에 행렬
여기에서 수행한 푸리에 변환 및 컨볼루션의 도출의 교훈적 값 외에도 이러한 개념을 그래프로 일반화하는 스킴을 제공한다. 링 그래프의 인접 행렬이 정확히 시프트 연산자임을 깨닫고, 인접 행렬의 고유 벡터를 계산함으로써 그래프 푸리에 변환 및 컨볼루션 연산자의 유추를 개발할 수 있다(예를 들어, Sandryhaila and Moura (2013) 참조). 때때로 '스펙트럴 GNN'이라고 불리는 CNN과 유추하여 그래프 신경망을 개발하려는 초기 시도는 이 정확한 청사진을 활용했다. 656565In graph signal processing, the eigenvectors of the graph Laplacian are often used as an alternative of the adjacency matrix to construct the graph Fourier transform, see Shuman et al. (2013). On grids, both matrices have joint eigenvectors, but on graphs they results in somewhat different though related constructions.We will see in Sections 4.4–4.6 that this analogy has some important limitations. 첫 번째 한계는 격자가 고정되어 있으므로 그 위의 모든 신호를 동일한 푸리에 기반으로 나타낼 수 있다는 사실에서 비롯된다. 이에 비해 일반적인 그래프에서는 푸리에 기저가 그래프의 구조에 따라 달라진다. 따라서 우리는 두 가지 다른 그래프에서 푸리에 변환을 직접 비교할 수 없다. 즉, 기계 학습 문제의 일반화 부족으로 번역된 문제이다. 둘째, 1차원 격자의 텐서 곱으로 구성된 다차원 격자는 기본 구조를 유지한다: 푸리에 기저 요소와 그에 대응하는 주파수(고유값)는 다차원으로 구성될 수 있다. 예를 들어 이미지에서 수평 및 수직 주파수에 대해 자연스럽게 이야기할 수 있으며 필터는 direction의 개념을 가지고 있다. 그래프에서 푸리에 영역의 구조는 푸리에 기저 함수를 해당 주파수의 크기만큼만 정리할 수 있기 때문에 1차원이다. 결과적으로, 그래프 필터는 방향 또는 isotropic을 망각한다.
Derivation of the continuous Fourier transform
For the sake of completeness, and as a segway for the next discussion, we repeat our analysis in the continuous setting. Like in Section 3.4, consider functions defined on
i.e.,
which implies that
For a general linear operator
implying that
where
4.3 Groups and Homogeneous spaces
그리드에 대한 우리의 논의는 시프트와 컨볼루션이 어떻게 밀접하게 연결되는지를 강조했습니다: 컨볼루션은 선형 시프트-equivariant68686868Technically, 우리는 그룹이 locally compact이므로 좌불변 Haar 척도가 있습니다. 이 척도에 대해 통합하면,
Consider the Euclidean domain
이 경우
Group convolution
As discussed in Section 3, the action of the group
여기에서 우리는 단순화를 위해 스칼라 값 신호인
이렇게 신호를 변환하고 필터와 일치시키는 방법을 정의하면 group convolution for signal on
| (14) |
Note that
Just like how the traditional Euclidean convolution is shift-equivariant, the more general group convolution is
Let us look at some examples. The case of one-dimensional grid we have studied above is obtained with the choice
leads to the familiar convolution 717171Actually here again, this is cross-correlation.
Spherical convolution
이제 727272
Cosmic microwave background radiation, captured by the Planck space observatory is a signal on
Representing a point on the sphere as a three-dimensional unit vector
가장 먼저 주목해야 할 것은 지금보다 그룹이 도메인과 동일하지 않다는 것이다: 그룹
This has important practical consequences: in our Geometric Deep Learning blueprint, we concatenate multiple equivariant maps (“layers” in deep learning jargon) by applying a subsequent operator to the output of the previous one. In the case of translations, we can apply multiple convolutions in sequence, since their outputs are all defined on the same domain
컨볼루션은 도메인
둘째, 컨볼루션의 shift-equivariance 특성으로부터 이전 섹션에서 도출한 푸리에 변환은 대칭군의 기약적 표현의 행렬 요소에 신호를 투영함으로써 보다 일반적인 경우로 확장될 수 있다는 점에 주목한다. 우리는 향후 작업에서 이에 대해 논의할 것입니다. 여기에서 연구된
마지막으로, 우리는 이 섹션에서 우리의 논의를 지금까지 뒷받침한 가정을 가리킵니다:
4.4 Geodesics and Manifolds
우리의 마지막 예에서, 스피어
많은 기계 학습 독자들의 경우 다양체는 다소 이국적인 대상으로 나타날 수 있지만 실제로 다양한 과학 영역에서 매우 일반적이다. 물리학에서 다양체는 아인슈타인의 일반상대성이론에 따르면, 중력은 유사 리만니안 다양체로 모델링된 시공간의 곡률에서 비롯된다. 컴퓨터 그래픽과 비전과 같은 더 '전문적인' 분야에서 매니폴드는 3D 도형의 일반적인 수학적 모델이다. 777777The term ‘3D’ is somewhat misleading and refers to the embedding space. The shapes themselves are 2D manifolds (surfaces).이러한 모델의 광범위한 응용 범위는 가상 및 증강 현실과 모션 캡처로 얻은 특수 효과에서 3D 퍼즐 조각처럼 서로 붙어 있는 단백질 상호 작용을 다루는 구조 생물학에 이르기까지 다양하다. 이러한 응용의 공통 분모는 일부 3D 객체의 경계면을 표현하기 위해 매니폴드를 사용하는 것이다.
이러한 모델이 편리한 이유는 여러 가지가 있습니다. 787878
The human body is an example of a non-rigid object deforming in a nearly-isometric way. 첫째, 그들은 3D 객체에 대한 컴팩트한 설명을 제공하여 그리드 기반 표현에서 요구되는 것처럼 ‘빈 공간’에 메모리를 할당할 필요가 없다. 둘째, 객체의 내부 구조를 무시할 수 있도록 한다. 이것은 예를 들어 단백질 분자의 내부 접힘이 분자 표면에서 발생하는 상호 작용과 종종 관련이 없는 구조 생물학에서 편리한 특성이다. 셋째, 가장 중요한 것은 비강성 변형을 겪는 deformable objects을 처리해야 하는 경우가 많다는 것이다. 우리 자신의 몸은 그러한 예 중 하나이며, 앞서 언급한 모션 캡처 및 가상 아바타와 같은 컴퓨터 그래픽 및 비전 분야의 많은 응용 프로그램은 deformation invariance을 필요로 한다. 이러한 변형은 매니폴드가 주변 공간에 내장되는 방식에 관계없이 (리만니안) 매니폴드의 고유 구조, 즉 측정된 along 매니폴드 사이의 거리를 보존하는 변형으로서 매우 잘 모델링될 수 있다.
우리는 다양체가 기하 딥러닝 설계도에서 varying domains의 설정에 해당한다는 점을 강조해야 하며, 이러한 의미에서 그래프와 유사하다. 우리는 영역 변형에 대한 불변 개념의 중요성을 강조할 것이다 – 우리는 섹션 3.3에서 '기하학적 안정성'이라고 불렀다. 미분 기하학은 아마도 기계 학습 청중에게 덜 친숙하기 때문에 논의에 필요한 기본 개념을 소개하고 독자에게 자세한 설명을 위해 Penrose (2005)를 참조할 것이다.
Riemannian manifolds
다양체797979By ‘smooth’ we mean differentiable suffient number of times, which is tacitly assumed for convenience. ‘Deformed’ here means diffeomorphic, i.e., we can map between the two neighbourhoods using a smooth and invertible map with smooth inverse. 의 형식적 정의는 다소 관련되어 있기 때문에, 우리는 약간의 정밀도를 희생시키면서 직관적인 그림을 제공하는 것을 선호한다. 이러한 맥락에서, 우리는 (differentiable or smooth) 매니폴드를 locally Euclidean, 임의의 점 주위의 임의의 작은 이웃이
A tangent vector, which we denote by
We must stress that tangent vectors are abstract geometric entities that exists in their own right and are coordinate-free. If we are to express a tangent vector
메트릭이 장착된 매니폴드를 Riemannian manifold이라고 하며 메트릭으로 완전히 표현할 수 있는 속성은 intrinsic이라고 한다. 이것은 우리의 템플릿에 따라, 우리는 isometries이라는 메트릭 보존 변환에 불변하는
이 결과는 Embedding Theorem, due to Nash (1956)로 알려져 있습니다. 종이접기의 기술은
우리가 언급했듯이, 리만 다양체의 정의는 어떤 공간에서도 기하학적 실현을 필요로 하지 않지만, 임의의 매끄러운 리만 다양체는 리만 계량법을 유도하기 위해 유클리드 공간의 구조를 사용함으로써 충분히 고차원의 유클리드 공간의 부분집합으로 실현될 수 있다는 것이 밝혀졌다. 그러나 이러한 임베딩은 반드시 고유한 것은 아니며, 우리가 볼 수 있듯이 리만 메트릭의 두 가지 다른 등척성 구현이 가능하다.
Scalar and Vector fields
우리는
Example of a scalar field. Scalar fields form a vector space
| (15) |
where
Example of a vector field. The fields are typically assumed to be of the same regularity class (smoothness) as the manifold itself. also form a vector space
| (16) |
Intrinsic gradient
Another way to think of (and actually define) vector fields is as a generalised notion of derivative. In classical calculus, one can locally linearise a (smooth) function through the differential
The solution is to use tangent vectors as a model of local infinitesimal displacement. Given a smooth scalar field
Alternatively, at each point
The representation of the differential at point
Geodesics
Now consider a smooth curve
이러한 곡선은 geodesics(from the Greek γεοδαιςία, literally 'division of Earth')로 불리며 미분 기하학에서 중요한 역할을 한다. 결정적으로, 우리의 논의에서, 우리가 측지학을 정의한 방식은 (길이 함수를 통해) 리만 미터법에만 의존하기 때문에 내재적이다.
미분 기하학에 정통한 독자는 지오데릭이 더 일반적인 개념임을 상기할 수 있으며 실제로 그들의 정의는 반드시 Riemannian 메트릭을 필요로 하지 않지만 connection (covariant derivative이라고도 하며, 이는 미분 구성과 유사하게 공리적으로 정의됩니다. 리만 메트릭이 주어지면 리만 기하학에서 종종 암묵적으로 가정되는 898989The Levi-Civita connection is torsion-free and compatible with the metric. The Fundamental Theorem of Riemannian geometry guarantees its existence and uniqueness. Levi-Civita connection이라는 고유한 특수 연결이 있습니다. 이 연결에서 발생하는 측지선은 위에서 정의한 길이 최소화 곡선이다.
다음으로 측지학을 사용하여 다양체 상의 접선 벡터를 전송하는 방법을 정의하고(평행 전송), 다양체에서 접선 공간으로 로컬 고유 지도를 작성하고(지수 맵), 거리를 정의하는 방법(측지 메트릭)을 보여 줄 것이다. 이를 통해 접선 공간에서 국소적으로 필터를 적용하여 컨볼루션과 같은 연산을 구성할 수 있다.
Parallel transport
909090
Euclidean transport of a vector from A to C makes no sense on the sphere, as the resulting vectors (red) are not in the tangent plane. Parallel transport from A to C (blue) rotates the vector along the path. It is path dependent: going along the path BC and ABC produces different results.
One issue we have already encountered when dealing with manifolds is that we cannot directly add or subtract two points
As a result, we get a unique vector
The map
앞서 언급했듯이 연결은 리만 미터법과 공리적으로 독립적으로 정의될 수 있으며, 따라서 부드러운 곡선을 따라 병렬 수송에 대한 추상적인 개념을 제공한다. 그러나 이러한 운송의 결과는 취한 경로에 따라 다르다.
Exponential map
Locally around a point
This definition of geodesic provided a point and a direction gives a natural mapping from (a subset of) the tangent space
Geodesic distances
Hopf-Rinow Theorem 939393Hopf-Rinow Theorem thus estabilishes the equivalence between geodesic and metric completeness, the latter meaning every Cauchy sequence converges in the geodesic distance metric.guarantees that geodesically complete manifolds is also complete metric spaces 이며, 이 값은 거리를 실현할 수 있습니다 (geodesic distance 또는 metric)
가 존재하는 경우(즉, 최소값에 도달함). 949494Note the term'metric' is used in two senses: Riemannian metric
Isometries
Consider now a deformation of our manifold
Since the pushforward959595Pushforward and pullback are adjoint operators
풀백 메트릭이 모든 지점에서
그들의 정의 덕분에 등측량은 지오데식 거리와 같은 고유 구조를 보존하며, 이는 전적으로 리만 미터법으로 표현된다. 따라서 거리 보존 맵(‘metric isometries’) between metric spaces
for all
우리의 기하 딥러닝 청사진에서
or metric distortion
which capture the relative and absolute change of the geodesic distances under
Intrinsic symmetries
A particular case of the above is a diffeomorphism of the domain itself (what we termed automorphism in Section 3.2), which we will denote by
Fourier analysis on Manifolds
우리는 이제 구성에 의해 등척성 변형에 불변하는 다양체에 대한 고유 컨볼루션과 같은 연산을 구성하는 방법을 보여줄 것이다. 이를 위해 두 가지 옵션이 있다: 하나는 푸리에 변환의 유추를 사용하는 것이고, 컨볼루션은 푸리에 도메인에서 곱으로 정의하는 것이다. 다른 하나는 필터를 신호와 국부적으로 상관시킴으로써, 콘볼루션을 공간적으로 정의하는 것이다. 스펙트럼 접근법에 대해 먼저 논의해 봅시다.
우리는 유클리드 영역에서 퓨리에 변환이 순환 행렬의 고유 벡터로 얻어지며, 이 고유 벡터는 교환도로 인해 공동으로 대각화할 수 있음을 상기한다. 따라서, 임의의 순환 매트릭스, 특히 미분 연산자는 일반 도메인 상의 푸리에 변환의 유추를 정의하기 위해 사용될 수 있다. 리만 기하학에서는 라플라시안 연산자의 직교 고유 기저를 사용하는 것이 일반적이며, 여기서 정의하기로 한다.
For this purpose, recall our definition of the intrinsic gradient operator
Laplacian (또한 Laplace-Beltrami operator in differential geometry)는
라플라시안(Laplacian)이 자기조인트(‘대칭적’)인 것을 쉽게 알 수 있고,
상기 표현에서 좌측의 2차 형태는 실제로 이미 익숙한 디리클레 에너지이고,
measuring the smoothness of
라플라시안 연산자는 자기분해를 인정한다.
with countable spectrum if the manifold is compact (which we 암묵적으로 가정함), and orthogonal eigenfunctions,
for
이 직교 기반은
여기서
Aflalo et al. (2015)는 Laplacian eigenbasis optimal for representing smooth signals on manifolds.
Spectral Convolution on Manifolds
Spectral convolution은 신호
| (17) |
여기서 우리는 고전적 푸리에 변환(Convolution Theorem)의 property을 define non-Euclidean convolution에 대한 방법으로 사용한다. 그 구성 덕분에 스펙트럼 컨벌루션은 고유하고 따라서 등량론에 불변한다. 또한, 라플라시안 연산자는 등방성이기 때문에 방향 감각이 없으며, 이러한 의미에서 이웃 집합의 순열 불변성으로 인해 섹션 4.1의 그래프에 있는 상황과 유사하다.
실제로, (17)의 직접 계산은 라플라시안 대각화의 필요성으로 인해 엄청나게 비싼 것으로 보인다. 더 나쁜 것은 기하학적으로 불안정하다는 것이다: 라플라시안 고빈도 고유함수는 영역
| (18) | |||||
| (19) |
which can be interpreted in two manners: either as a spectral filter (18), where we identify
스펙트럼 분해를 완전히 피합니다. 우리는 이 구성에 대해 섹션 4.6에서 더 자세히 논의할 것이다.
Spatial Convolution on Manifolds
두 번째 대안은 매니폴드에 대한 컨벌루션을 정의하는 것을 시도하는 것인데, 이는 수식 (14)에서와 같이 서로 다른 지점에서 필터를 매칭하는 것이다.
| (20) |
여기서 우리는 이제 지수 맵을 사용하여 접선 공간에서 스칼라 필드
그러나 섹션 4.2–4.3에서 이전 구성과 몇 가지 실질적인 차이점을 주목할 필요가 있다. 첫째, 매니폴드는 일반적으로 균질한 공간이 아니기 때문에, 우리는 더 이상 글로벌 그룹 구조를 갖지 않는다. 우리를 허용하는 공유 필터(즉, 한 지점에서 정의된 식(20))에서
| (21) |
단위 큐브에 정의된 필터와 함께. 지수 맵은 (측지선의 정의를 통해) 고유하기 때문에, 결과 컨볼루션은 등변-불변이다.
그러나, 이 암묵적으로 우리는 프레임
우리는 실천이 이론에서 발산하는 경우라는 점에 주목해야 한다. 실제로, 다양체 위의 일부 고유 스칼라 장의 고유 기울기를 취함으로써 제한된 수의 특이점으로 대부분 매끄러운 프레임을 구축하는 것이 가능하다. 104104104
Example of stable gauges constructed on nearly-isometric manifolds (only one axis is shown) using the GFrames algorithm of Melzi et al. (2019). Moreover, 이러한 구성은 안정적이다. 즉, 이러한 방식으로 구성된 프레임은 등척성 매니폴드에서는 동일하고 대략 등척성 매니폴드에서는 유사할 것이다. 이러한 접근법은 실제로 매니폴드 (Masci et al., 2015; Monti et al., 2017)에 대한 딥 러닝에 대한 초기 작업에서 사용되었다.
그럼에도 불구하고, 이 솔루션은 거의 특이점들, 필터 배향(게이지에 대해 고정된 방식으로 정의됨)이 거칠게 변할 것이기 때문에 완전히 만족스럽지는 않으며, 이는 입력 신호 및 필터가 매끄럽더라도 매끄럽지 않은 특징 맵으로 이어진다. 더욱이, 어떤 지점
4.5 Gauges and Bundles
우리가 접선 공간에 대한 프레임으로 정의한 게이지 개념은 물리학에서 훨씬 더 일반적이며, 이는 접선 번들뿐만 아니라 임의의 105105105Historically, fibre bundles arose first in modern differential geometry of Élie Cartan (who however did not define them explicitly), and were then further developed as a standalone object in the field of topology in the 1930s.벡터 번들에 대한 프레임을 참조할 수 있다. 비공식적으로, 벡터 번들은 다른 공간에 의해 파라메트리스된 벡터 공간들의 패밀리를 기술하고, 동일한 벡터 공간
다시 한번, 접선 번들
Tangent bundles and the Structure group
When we change the gauge, we need to apply at each point an invertible matrix that maps the old gauge to the new one. This matrix is unique for every pair of gauges at each point, but possibly different at different points. In other words, a gauge transformation is a mapping
which is exactly the property we desired. More generally, we may have a field of geometric quantities that transform according to a representation
때때로 우리는 직교 프레임, 오른손잡이 프레임 등과 같은 특정 속성을 가진 프레임에 주의를 제한하고자 할 수 있다. 놀랄 것도 없이, 우리는 그룹을 형성하는 몇 가지 재산 보존 변형 세트에 관심이 있다. 예를 들어, 직교성을 보존하는 그룹은 직교 그룹
앞서 언급했듯이 게이지 이론은 접선 번들을 넘어 확장되며, 일반적으로 우리는 구조와 차원이 반드시 기본 공간
As in the case of a vector field on a manifold, an RGB gauge transformation changes the numerical representation of an image (permuting the RGB values independently at each pixel) but not the underlying image. In machine learning applications, we are interested in constructing functions
Gauge Symmetries
우리가 게이지 변환을 대칭으로 간주한다고 하는 것은 게이지 변환에 의해 관련된 모든 두 게이지가 동등한 것으로 간주된다고 말하는 것이다. 예를 들어,
Geometric Deep Learning 설계도의 대칭으로서 게이지 변환과 관련하여, 우리는
Further considerations enter the picture when we look at filters on manifolds with a larger spatial support. Let us first consider an easy example of a mapping
| (22) |
이것은 각 지점에서 잠재적으로 다른 필터
Consider now a more interesting case of a mapping
더 나은 접근법은 먼저 연결을 통해 벡터를 공통 접선 공간으로 수송한 다음 한 점에서만 게이지 등분산 wrt 단일 게이지 변환을 부과하는 것이다. (22) 대신에, 우리는 그 다음에 벡터 필드들 사이의 다음의 맵을 정의할 수 있고,
| (23) |
where
앞서 언급한 변신에 따라.
4.6 Geometric graphs and Meshes
우리는 geometric graphs (즉, 일부 기하학적 공간에서 실현될 수 있는 그래프) 및 meshes으로 서로 다른 기하학적 도메인에 대한 논의를 마무리할 것이다. 기하 영역의 '5G'에서 메쉬는 그래프와 다양체 사이의 어딘가에 속한다: 많은 면에서, 그래프는 그래프와 유사하지만, 그들의 추가적인 구조는 연속적인 물체들과 유사하게 다룰 수 있게 한다. 이러한 이유로 우리는 메쉬를 스킴에서 독립 객체로 간주하지 않으며 실제로 메쉬에 대해 이 섹션에서 파생된 많은 구성이 일반 그래프에도 직접 적용할 수 있음을 강조할 것이다.
우리가 이미 섹션 4.4에서 언급했듯이, 2차원 매니폴드(표면)는 3D 객체(또는 더 좋게 말하면 그러한 객체의 경계 표면)를 모델링하는 일반적인 방법이다. 컴퓨터 그래픽 및 비전 응용 프로그램에서 이러한 표면은 종종 triangular meshes, 110110110Triangular meshes are examples of topological structures known as simplicial complexes.으로 이산화되며, 이는 삼각형을 가장자리를 따라 함께 접착하여 얻은 표면의 조각 단위 평면 근사치로 대략 생각할 수 있다. Meshes는 따라서 (unirected) graphs with additional structure: 노드 및 에지 외에도, 메시
Examples of manifold (top) and non-manifold (bottom) edges and nodes. For manifolds with boundary, one further defines boundary edges that belong to exactly one triangle.
또한, 각 모서리는 정확히 두 개의 삼각형에 의해 공유되고, 각 노드에 입사하는 모든 삼각형의 경계는 모서리의 단일 루프를 형성한다고 가정한다. 이 조건은 각 노드 주변의 1-홉 이웃이 디스크형이고 따라서 메시가 discrete manifold – 그러한 메시를 manifold meshes이라고 한다. 리만 매니폴드와 유사하게 메시에서 metric을 정의할 수 있습니다. 가장 간단한 예에서, 메시 노드
Laplacian matrices
그래프의 처리와 유사하게, 각각
먼저, 우리가 독자들에게 상기시키는 메쉬 상의 스펙트럼 컨볼루션(17)이 라플라시안 연산자로부터 발생함을 살펴보자. 메쉬를 기본 연속 표면의 이산화로 간주하면 라플라시아를 이산화할 수 있다.
| (24) |
or in matrix-vector notation, as an
지금까지 Laplacian in (24)의 정의에서 specific to meshes이 없다는 점에 유의하세요; 사실, 이 구성은 임의의 그래프에도 유효하며, 인접 행렬,
메시에서 면이 제공하는 추가 구조를 활용할 수 있으며 cotangent formula (Pinkall and Polthier, 1993; Meyer et al., 2003)114114114
The earliest use of this formula dates back to the PhD thesis of MacNeal (1949), who developed it to solve PDEs on the Caltech Electric Analog Computer.
| (25) |
where
코탄젠트 라플라시안(cotangent Laplacian)은 다수의 편리한 속성을 갖는 것으로 보여질 수 있다(e.g. Wardetzky et al. (2007) 참조): positive-semidefinite 행렬,
하나는 라플라시안(Laplacian)이 내재적일 것으로 예상하지만, 이것은 방정식 (25)으로부터 매우 명백하지 않으며, 코탄젠트 가중치를 이산 메트릭의 관점에서 완전히 표현하기 위해 약간의 노력이 필요하다
where the area of the triangles
using Heron’s semiperimeter formula with
마지막으로, 우리가 이미 알아차린 바와 같이, 116116116
Laplacian-based filters are isotropic. In the plane, such filters have radial symmetry. Laplacian의 정의(25)는 합산의 형태로 집계를 포함하기 때문에
Spectral analysis on meshes
The orthogonal eigenvectors
여기서 필터
As noted in Section 4.4, it is preferable to use spectral filters of the form (18) applying some transfer function
When
amounting to the multiplication of the
그러나, 필터의 실제 지원(즉, 그것이 커버하는 반경)이 메쉬의 resolution에 의존하기 때문에, 이러한 정확한 속성은 메쉬를 다룰 때 불리하게 된다. 하나는 기본 연속 표면의 이산화로부터 메시가 발생한다는 것을 명심해야 하며, 하나는 the same object을 나타내는 두 개의 서로 다른 메시
Two-hop neighbourhoods on meshes of different resolution. 더 미세한 메쉬에서는 더 거친 메쉬보다 더 큰 이웃(따라서 필터의 더 큰 정도
이러한 이유로 컴퓨터 그래픽 응용 프로그램에서는 해상도 독립적이기 때문에 rational filters을 사용하는 것이 더 일반적이다. 그러한 필터들을 정의하는 많은 방법들이 있다(예를 들어, Patanè (2020) 참조), 가장 일반적인 것은 일부 유리 함수의 다항식으로서, 예를 들어,
행렬들에 적용될 때, 상기 케일리 다항식의 계산은 행렬 역산을 필요로 하고,
이는 선형 복잡도로 대략적으로 수행될 수 있다. 유리 필터는 다항식 필터와 달리 로컬 지원이 없지만 지수 감쇠 (Levie et al., 2018)를 갖는다. 푸리에 변환의 직접 계산과 비교하여 중요한 차이점은 다항식 및 유리 필터가 기본 그래프 또는 메쉬의 근사 등척성 변형 하에서 안정하다는 것이다. 이러한 종류의 다양한 결과가 예를 들어 Levie et al. (2018, 2019); Gama et al. (2020); Kenlay et al. (2021)로 나타났다.
Meshes as operators and Functional maps
기능 지도의 패러다임은 메쉬의 생각을 operators으로 제안한다. 우리가 보여주듯이, 이것은 메쉬의 추가 구조를 이용하는 보다 흥미로운 유형의 불변성을 얻을 수 있게 한다. 논의의 목적을 위해, 메쉬
이 견해에서,
임의의 순열 행렬
Functional maps were introduced by Ovsjanikov et al. (2012) as a generalisation of the notion of correspondence to such settings, replacing the correspondence between points on two domains (a map
Rustamov et al. (2013) showed that in order to guarantee area-preserving mapping, the functional map must be orthogonal,


상기 기능 맵은 또한 메쉬들의 오퍼레이터 표현 사이의 관계를 확립하고,
우리는 다음과 같이 해석할 수 있다 : 주어진 연산자 표현
for any
Wang et al. (2019a)는 연산자
5 Geometric Deep Learning Models
기하학적 딥 러닝 청사진의 다양한 인스턴스화(도메인, 대칭 그룹 및 지역 개념의 다양한 선택에 대해)를 철저히 연구한 후, 이러한 처방을 시행하는 것이 가장 인기 있는 딥 러닝 아키텍처 중 일부를 산출할 수 있는 방법에 대해 논의할 준비가 되어 있습니다.
우리의 박람회는 다시 한번 일반성의 엄격한 순서가 아닐 것이다. 우리는 처음에 구현이 우리의 앞선 논의로부터 거의 직접 따르는 세 가지 아키텍처, 즉 컨볼루션 신경망(CNN), 그룹-등변 CNN 및 그래프 신경망(GNN)을 다룬다.
그런 다음 그래프 구조가 미리 알려져 있지 않은 경우(즉, 정렬되지 않은 집합)에 대한 GNN의 변형을 자세히 살펴보고 토론을 통해 인기 있는 딥셋 및 트랜스포머 아키텍처를 GNN의 인스턴스로 설명한다.
기하 그래프와 메쉬에 대한 논의에 이어, 먼저 명시적인 기하 대칭을 GNN 계산에 도입하는 등분산 메시지 전달 네트워크를 설명한다. 그런 다음, 지오데식 및 게이지 대칭 이론이 딥 러닝 내에서 구체화될 수 있는 방법을 보여줌으로써, 고유 메시 CNN(Geodesic CNN, MoNet 및 게이지-equivariant mesh CNN 포함)의 패밀리를 복구한다.
마지막으로 temporal 각도에서 그리드 도메인을 돌아봅니다. 이 논의는 우리를 순환 신경망(RNN)으로 이끌 것이다. 우리는 RNN이 시간 격자에 대해 번역 불변인 방식을 보여주지만 시간 와핑 변환에 대한 안정성을 연구할 것이다. 이 특성은 장거리 종속성을 적절하게 처리하는데 매우 바람직하며, 그러한 변환들에 대한 클래스 불변성을 강제하는 것은 (LSTM 또는 GRU와 같은 인기 있는 RNN 모델들을 포함하는) 게이티드 RNN들의 클래스를 정확하게 산출한다.
위의 캔버스가 작성 시 사용되는 대부분의 주요 딥 러닝 아키텍처를 활용하기를 희망하지만, 우리는 새로운 신경망 인스턴스가 매일 제안된다는 것을 잘 알고 있다. 따라서, 가능한 모든 아키텍처를 포괄하는 것을 목표로 하기보다는 다음 섹션이 충분히 예시적이어서 독자가 불변과 대칭의 렌즈를 사용하여 미래의 기하 딥러닝 개발을 쉽게 분류할 수 있기를 바란다.
5.1 Convolutional Neural Networks
Convolutional Neural Networks are perhaps the earliest and most well known example of deep learning architectures following the blueprint of Geometric Deep Learning outlined in Section 3.5. In Section 4.2 we have fully characterised the class of linear and local translation equivariant operators, given by convolutions
Any convolution with a compactly supported filter of size
| (26) |
이는, 좌표에서, 친숙한 2D 컨볼루션에 대응한다(도 14 for a overview):
| (27) |
Other choices of the basis
스칼라 입력 채널이 다수의 채널들(예를 들어, RGB 컬러들, 또는 더 일반적으로 임의의 수의 특징 맵들)로 대체될 때, 컨볼루션 필터는 입력 특징들의 임의의 선형 조합들을 출력 특징 맵들로 표현하는 컨볼루션 텐서이 된다. 좌표에서, 이는 다음과 같이 표현될 수 있다.
| (28) |
여기서
Efficient multiscale computation
일반적인 대칭을 위한 GDL 템플릿에서 논의된 바와 같이, 컨볼루션 연산자
ReLU, often considered a ‘modern’ architectural choice, was already used in the Neocognitron (Fukushima and Miyake, 1982). Rectification is equivalent to the principle of demodulation, which is fundamental in electrical engineering as the basis for many transmission protocols, such as FM radio; and also has a prominent role in models for neuronal activity.Convolutional features is processed through non-linear activation function
이미 Fukushima and Miyake (1982) 및 LeCun et al. (1998)의 초기 작업에서 CNN 및 유사한 아키텍처는 멀티스케일 구조를 가졌으며, 각 컨볼루션 레이어(28) 이후에 그리드 조대화
요약하면, '바닐라' CNN 레이어는 우리의 기하 딥러닝 청사진에 이미 소개된 기본 객체들의 구성으로 표현될 수 있다:
| (29) |
i.e. 등분산 선형 계층
이 CNN 청사진에 이어지는 두드러진 예(그 중 일부는 다음에 논의할 것임)가 그림 15에 표시된다.




Deep and Residual Networks
따라서 가장 간단한 형태의 CNN 아키텍처는 하이퍼파라미터
이 질문에 대한 엄밀한 대답은 여전히 파악하기 어렵지만, 최근 몇 년 동안 수집된 경험적 증거의 증가는 더 깊은(큰
| (30) |
결과 residual 네트워크는 이전 공식에 비해 몇 가지 주요 이점을 제공합니다. 본질적으로, 잔차 파라미터는 딥 네트워크가 기본 연속 동적 시스템의 이산화라는 견해와 일치하며, 상미분 방정식(ODE)131131131131이 경우 ResNet은 ODE:
Normalisation
CNN의 경험적 성능을 크게 향상시킨 또 다른 중요한 알고리즘 혁신은 normalisation의 개념이다. 신경 활동의 초기 모델에서 뉴런은 지역적인 '이득 제어'의 일부 형태를 수행하는 것으로 가정되었으며, 여기서 층 계수
딥 러닝의 맥락에서, 이 원리는 batch normalisation layer (Ioffe and Szegedy, 2015)132132132We note that normalising activations of neural networks has seen attention even before the advent of batch normalisation. See, e.g., Lyu and Simoncelli (2008).을 통해 널리 채택되었으며, 그 다음이 여러 변형 (Ba et al., 2016; Salimans and Kingma, 2016; Ulyanov et al., 2016; Cooijmans et al., 2016; Wu and He, 2018)이다. 더 나은 조건화된 최적화 풍경 (Santurkar et al., 2018) 측면에서 정상화의 이점을 엄격하게 설명하려는 일부 시도에도 불구하고, 지침 원칙을 제공할 수 있는 일반 이론은 작성 당시 여전히 누락되어 있다.
Data augmentation
CNN은 번역 불변 및 스케일 분리와 관련된 기하학적 전적을 인코딩하지만, 번개 또는 색상 변화, 또는 작은 회전 및 확장과 같은 의미 정보를 보존하는 다른 알려진 변환을 명시적으로 설명하지 않는다. 이러한 이전을 최소한의 아키텍처 변경으로 통합하기 위한 실용적인 접근법은 data augmentation을 수행하는 것입니다. 여기서 수동으로 입력 이미지에 대한 변환을 수행하고 이를 훈련 세트에 추가합니다.
5.2 Group-equivariant CNNs
섹션 4.3에서 논의된 바와 같이, 우리는 유클리드 공간 상의 신호에서 임의의 homogeneous space
Discrete group convolution
도메인
두 번째 예로, 우리는 C, G, A, T의 네 글자로 구성된 DNA134134134DNA is a biopolymer molecule made of four repeating units called nucleotides (Cytosine, Guanine, Adenine, and Thymine), arranged into two strands coiled around each other in a double helix, where each nucleotide occurs opposite of the complementary one (base pairs A/T and C/G). sequence를 고려한다. 시퀀스들은 신호들
A schematic of the DNA’s double helix structure, with the two strands coloured in blue and red. Note how the sequences in the helices are complementary and read in reverse (from 5’ to 3’). DNA 분자는 항상
우리의 경우, 섹션 4.3에서 정의한 그룹 컨볼루션(14)은 다음과 같이 주어진다.
| (31) |
the inner product between the (single-channel) input signal
Transform+Convolve approach
그룹 컨볼루션이 필터 변환 단계와 병진 컨볼루션 단계의 두 단계로 구현될 수 있음을 보일 것이다. 필터 변환 단계는 기본 필터의 회전된(또는 역-보완 변환된) 복사본을 생성하는 것으로 구성되는 반면, 병진 컨볼루션은 표준 CNN에서와 동일하고 따라서 GPU와 같은 하드웨어 상에서 효율적으로 계산가능하다. 이를 보기 위해, 두 예 모두에서 우리는 일반적인 변환
| (32) | ||||
We recognise the last equation as the standard (planar Euclidean) convolution of the signal
그룹 컨볼루션
섹션 4.3에 도시된 바와 같이, 그룹 컨볼루션은 equivariant:
Spherical CNNs in the Fourier domain
4.3 섹션에서 본 구의 연속 대칭 그룹에 대해, 적절한 푸리에 변환을 사용하여 스펙트럼 도메인에서 컨벌루션을 구현할 수 있다(우리는 독자에게
5.3 Graph Neural Networks
그래프 신경망(GNN)은 순열 그룹의 특성을 활용하는 그래프에 대한 기하학적 딥 러닝 청사진을 실현하는 것이다. GNN은 현재 존재하는 딥 러닝 아키텍처의 가장 일반적인 클래스 중 하나이며, 이 텍스트에서 볼 수 있듯이, 대부분의 다른 딥 러닝 아키텍처는 추가적인 기하학적 구조를 갖는 GNN의 특수한 경우로 이해될 수 있다.
섹션 4.1에서의 우리의 논의에 따라, 우리는 인접 행렬
GNN 레이어의 설계 및 연구는 글쓰기 당시 딥러닝의 가장 활발한 영역 중 하나로 탐색하기 어려운 풍경이다. 다행히도, 우리는 대다수의 문헌이 GNN 층의 세 가지 "맛"에서만 파생될 수 있음을 발견한다(그림 17). 이러한 풍미는
세 가지 향미 모두에서, 순열 불변성은 aggregating features from



convolutional flavour (Kipf and Welling, 2016a; Defferrard et al., 2016; Wu et al., 2019)에서, 이웃 노드의 특징은 고정된 가중치로 직접 집계되고,
| (33) |
여기서,
attentional flavour (Veličković et al., 2018; Monti et al., 2017; Zhang et al., 2018)에서 상호 작용은 암시적이다.
| (34) |
여기서,
마지막으로 message-passing flavour (Gilmer et al., 2017; Battaglia et al., 2018) amounts to computing arbitrary vectors("messages") across edge,
| (35) |
여기서,
한 가지 중요한 사항은 이러한 접근법 간의 표현적 포함입니다. convolution
이것은 GNN을 전달하는 메시지가 항상 가장 유용한 변형이라는 것을 의미하지 않으며, 에지들을 가로질러 벡터 값 메시지들을 계산해야 하기 때문에, 이들은 전형적으로 트레이닝하기가 더 어렵고 다루기 힘든 양의 메모리를 필요로 한다. 또한, 광범위한 자연 발생 그래프에서, 그래프의 에지는 다운스트림 클래스 유사성에 대해 인코딩된다(즉, 에지
여기에 제시된 "3가지 맛" 분류는 간결함을 염두에 두고 제공되며 불가피하게 GNN 모델에 대한 풍부한 뉘앙스, 통찰력, 일반화 및 역사적 맥락을 무시한다. 중요한 것은 Weisfeiler-Lehman 계층에 기반한 고차원 GNN과 그래프 푸리에 변환의 명시적 계산에 의존하는 스펙트럼 GNN을 제외한다는 것이다.
5.4 Deep Sets, Transformers, and Latent Graph Inference
unordered sets의 표현을 학습하기 위한 순열-등분산 신경망 아키텍처에 대해 언급함으로써 GNN에 대한 논의를 마무리한다. 이 텍스트에서 논의한 도메인 중 집합은 구조가 가장 적지만 최근 트랜스포머 (Vaswani et al., 2017) 및 딥셋 (Zaheer et al., 2017)와 같은 인기 있는 아키텍처에 의해 중요성이 강조되고 있다. 섹션 4.1의 언어에서, 우리는 노드 특징들의 매트릭스,
Empty edge set
순서화되지 않은 집합은 별도의 구조나 기하학 없이 제공된다. 따라서, 이들을 처리하는 가장 자연스러운 방법은 각 집합 요소를 전적으로 independently으로 처리하는 것이라고 주장할 수 있다. 이것은 그러한 입력에 대한 순열 등분산 함수로 변환되며, 이는 섹션 4.1: 격리된 모든 노드에 적용된 공유 변환에서 이미 도입되었다. GNNs를 설명할 때와 동일한 표기를 가정하면(Section 5.3), 이러한 모델은 다음과 같이 나타낼 수 있다.
여기서
Complete edge set
빈 에지 집합이 정렬되지 않은 집합을 통해 함수를 구축하는 데 매우 효율적인 구성이라고 가정하지만, 종종 집합의 요소가 관계 구조의 일부 형태를 나타내는 것, 즉 노드 사이에 잠재 그래프이 있을 것으로 예상할 수 있다.
where the second input,
이것은 더 표현력 있는 GNN 맛인 attentional,
| (36) |
이는 self-attention operator, the core of the Transformer architecture (Vaswani et al., 2017)를 산출한다. 어텐션 계수(예: softmax)에 대한 어떤 종류의 정규화를 가정하면, 우리는 모든 스칼라
위의 관점은 완전한 그래프 (Joshi, 2020)에 대해 Transformers를 주의력 있는 GNN으로 정확히 포즈를 취할 수 있음을 의미한다. 139139139It is also appropriate to apply the message-passing flavour. While popular for physics simulations and relational reasoning (e.g. Battaglia et al. (2016); Santoro et al. (2017)), they have not been as widely used as Transformers. This is likely due to the memory issues associated with computing vector messages over a complete graph, or the fact that vector-based messages are less interpretable than the “soft adjacency” provided by self-attention.그러나, 이는 sequences—the representations of
노드의 자연스러운 순서가 존재하지 않는 그래프에서 이러한 위치 인코딩에 대한 여러 대안이 제시되었다. 나중에 이러한 대안을 논의하는 것을 연기하지만, 우리는 트랜스포머에서 사용되는 위치 인코딩이 이산 푸리에 변환(DFT)과 직접 관련될 수 있고 따라서 "원형 그리드"의 그래프 라플라시안 고유 벡터와 관련될 수 있다는 실현을 포함하는 한 가지 유망한 방향에 주목한다. 따라서 트랜스포머의 위치 인코딩은 입력 노드가 그리드에서 연결된다는 가정을 암시적으로 나타낸다. 보다 일반적인 그래프 구조의 경우, 경험적으로 강력한 그래프 트랜스포머 모델 내에서 Dwivedi and Bresson (2020)에 의해 이용된 관찰인 (가정된) 그래프의 라플라시안 고유 벡터를 간단히 사용할 수 있다.
Inferred edge set
마지막으로, 잠재 관계 구조를 학습하려고 시도할 수 있으며, 이는
불행히도, 그러한 프레이밍은 모델링 복잡성에서 반드시 단계를 유도한다. 특히, 그래프가 사용되는 모든 다운스트림 태스크와 구조 학습 목적(discrete, 따라서 Gradient 기반 최적화에 도전)의 균형을 적절하게 유지해야 합니다. 이것은 잠재 그래프 추론을 매우 도전적이고 복잡한 문제로 만든다.
5.5 Equivariant Message Passing Networks
그래프 신경망의 많은 응용에서 노드 특징(또는 그 부분)은 임의의 벡터일 뿐만 아니라 기하학적 개체의 coordinates이다. 이것은 예를 들어 분자 그래프를 다룰 때이다: 원자를 나타내는 노드는 원자 타입뿐만 아니라 그것의 3D 공간 좌표에 대한 정보를 포함할 수 있다. 분자가 공간에서 변환되는 것과 동일한 방식으로 변환되는 방식으로 특징의 후부를 처리하는 것이 바람직하며, 다시 말해서, 이전에 논의된 표준 순열 등분산 외에 강체 운동(회전, 병진 및 반사)의 유클리드 그룹
우리의 (약간 단순화된) 분석을 위한 단계를 설정하기 위해, 우리는 노드 features
이제 기하학적 딥러닝 청사진을 따라 바람직한 등분산 특성을 설명할 수 있습니다. 입력의 공간 성분이
일반 그래프의 맥락에서 이전에 논의한 순열 등분산 함수의 공간과 마찬가지로 위의 제약 조건을 충족하는 방대한 양의
여기서
요약하자면, 일반적인 GNN과 대조적으로, Satorras et al. (2021)는 그래프의 각 점에 대한 '좌표'의 올바른 처리를 가능하게 한다. 그들은 이제
While scalar features (heatmap) does not change under rotations, vector features (arrows) can change direction. 이전에 주어진 간단한
따라서 위에서 논의한 아키텍처는 이미 많은 실제 입력 표현에 대해 우아한 등분산 솔루션을 제시하지만, 일부 경우에는 등분산 특성을 충족하는 함수의 광범위한 모음을 탐색하는 것이 바람직할 수 있다. 이러한 설정을 다루는 기존 방법은 두 가지 클래스로 분류할 수 있습니다. irreducible representations (이 중 이전에 언급한 계층은 단순화된 인스턴스임) 및 regular representations. 우리는 여기서 그들을 간략하게 조사하며 자세한 논의는 향후 작업에 맡긴다.
Irreducible representations
기약적 표현은 로토-번역 그룹의 모든 원소들이 기약적 형태로 만들어질 수 있다는 발견, 즉 블록 대각 행렬에 의해 회전되는 벡터를 기반으로 한다. 결정적으로, 이들 블록들 각각은 Wigner D-matrix (The aforementioned Fourier basis for Spherical CNNs). 이 우산 지도 아래의 접근법은 한 세트의 환원 불가능한 표현에서 등분산 커널을 사용하여 다른 표현으로 접근한다. 등분산 매핑의 전체 집합을 찾기 위해 이 커널에 대한 등분산 제약을 직접 해결할 수 있다. 솔루션은 Clebsch-Gordan 행렬 및 구형 고조파에 의해 유도된 등분산 기저 행렬의 선형 조합을 형성한다.
기약 표현 접근법의 초기 예는 Tensor Field Networks (Thomas et al., 2018) 및 3D Steerable CNNs (Weiler et al., 2018)를 포함하며, 둘 다 포인트 클라우드 상에서 동작하는 컨볼루션 모델이다.
Regular representations
기약적 표상의 접근법은 매력적이지만, 지루할 수 있고 조밀한 그룹에만 적용할 수 있는 기본 그룹 표상에 대한 직접적인 추론을 필요로 한다. 정규 표현 접근법은 더 일반적이지만 추가 계산 부담이 있습니다. - 정확한 등분성을 위해 all 그룹 요소141141141This approach was, in fact, pioneered by the group convolutional neural networks we presented in previous sections.에 대한 잠재 기능 임베딩 사본을 저장해야 합니다.
이 공간에서 한 가지 유망한 접근법은 다양한 대칭 그룹에 걸친 신속한 프로토타이핑의 약속과 함께 지수 및 로그 맵의 정의를 통해 Lie 그룹에 대한 등분성을 관찰하는 것을 목표로 한다. Lie 그룹은 이 섹션의 범위를 벗어났지만 독자는 이 방향의 두 가지 최근 성공적인 인스턴스를 참조한다: Finzi et al. (2020)의 LieConv와 Hutchinson et al. (2020)의 LieTransformer.
이 섹션에서 다루는 접근법은 기본 기하학에 명시적으로 모호한 방식으로 기하학 그래프에 대한 데이터를 처리하는 일반적인 방법을 나타낸다. 4.6 섹션에서 논의된 바와 같이, meshes은 연속적인 표면의 이산화로 이해될 수 있는 기하학적 그래프의 특별한 인스턴스이다. 우리는 다음으로 메쉬별 등분산 신경망을 연구할 것이다.
5.6 Intrinsic Mesh CNNs
특히 삼각형 메쉬는 컴퓨터 그래픽의 '빵과 버터'이며 아마도 3D 객체를 모델링하는 가장 일반적인 방법이다. 딥러닝의 일반적인 성공과 특히 컴퓨터 비전에서 CNN의 놀라운 성공은 2010s 중반 주변의 그래픽 및 기하학 처리 커뮤니티에 대한 뜨거운 관심을 이끌었습니다. 결과 패치가 위상 디스크가 되기 위해서는 그 반지름
Geodesic patches
Most of the architectures for deep learning on meshes implement convolutional filters of the form (21) by discretising or approximating the exponential map and expressing the filter in a coordinate system of the tangent plane. Shooting a geodesic
표면143143143
Construction of discrete geodesics on a mesh. discretised as a mesh, a geodesic is a poly-line to traversed the triangular faces. 전통적으로 측지학은 고속 마칭 알고리즘 Kimmel and Sethian (1998), eikonal equation이라는 비선형 PDE의 효율적인 수치 근사를 사용하여 계산되었습니다. 이 스킴은 로컬 지오데식 패치 계산을 위해 Kokkinos et al. (2012)에 의해 적응되었고 나중에 메쉬 상의 최초의 고유 CNN 유사 아키텍처인 Geodesic CNNs의 구성을 위해 Masci et al. (2015)에 의해 재사용되었다.
Isotropic filters
중요한 것은 측지 패치의 정의에서 참조 방향과 패치 방향의 선택에 모호성이 있다는 것이다. 이것은 정확히 게이지 선택의 모호성이며, 우리의 국소 좌표계는 임의의 회전(또는 각도 좌표의 시프트,
섹션 4.4–4.6에서 논의된 스펙트럼 필터는 이 범주에 속한다: 이들은 등방성인 라플라시안 연산자를 기반으로 한다. 그러나, 이러한 방법은 중요한 방향성 정보를 폐기하고, 에지-유사 특징을 추출하는데 실패할 수 있다.
Fixed gauge
우리가 Section 4.4에서 이미 암시했던 대안은 fix some gauge이다. Monti et al. (2017)는 주요 곡률 방향을 사용했는데, 이 선택은 고유하지 않고 평평한 점(곡률이 사라지는 곳)이나 균일한 곡률(완벽한 구와 같은)에서 모호할 수 있지만, 저자들은 변형 가능한 인체 형상을 다루는 것이 대략 단편적으로 단단한 것으로 합리적인 것으로 나타났다. Melzi et al. (2019)와 같은 후속 연구에서는 고유 함수의 (intrinsic) 기울기로 계산되는 메시 상의 게이지의 신뢰할 수 있는 고유 구성을 보여주었다. 이러한 접선 필드는 특이점을 가질 수 있지만(즉, 일부 지점에서 사라짐), 전체 절차는 노이즈 및 리메싱에 매우 강력하다.
Angular pooling
angular max pooling으로 지칭되는 다른 접근법은 Masci et al. (2015)에 의해 사용되었다. 이 경우, 필터
개념적으로 이것은 측지선 패치를 회전 필터와 상관시키고 가장 강한 응답을 수집하는 것으로 시각화할 수 있다.
On meshes, the continuous integrals can be discretised using a construction referred to as patch operators (Masci et al., 2015). In a geodesic patch around node
(여기서
Gauge-equivariant filters
등방성 필터와 angular max pooling 모두 invariant to gauge transformations; 그들은 trivial representation
섹션 4.5에서 논의된 바와 같이, 그러한 기하학적 특징(비-사소한 표현과 연관됨)을 다룰 때, 우리는 먼저 필터를 적용하기 전에 이들을 동일한 벡터 공간으로 병렬 수송해야 한다. 메쉬 상에서, 이는 de Haan et al. (2020)에 의해 기술된 다음의 메시지 전달 메커니즘을 통해 구현될 수 있다.
그래프 신경망에 대한 유추에 의해, 우리는
| (37) |
where
As explained in Section 4.5, for
5.7 Recurrent Neural Networks
우리의 논의는 지금까지 입력이 주어진 도메인에 걸쳐 오직 spatial이라고 항상 가정했다. 그러나, 많은 일반적인 사용 사례에서, 입력은 또한 sequential (예를 들어, 비디오, 텍스트 또는 음성)으로 간주될 수 있다. 이 경우, 입력이 임의로 많은 steps으로 구성된다고 가정하며, 여기서 각 단계
일반적으로 도메인은 그 위의 신호와 함께 시간적으로 진화할 수 있지만, 일반적으로 도메인이 모든
종종, 개별
encoder function
이제 적절한 summarising a sequence of vectors
SimpleRNNs
각 단계에서 순환 신경망은
| (38) |
그리고,
| (39) |
여기서
그런 다음 요약 벡터는 다운스트림 작업에 적절하게 레버리지될 수 있습니다. 시퀀스의 모든 단계에서 예측이 필요한 경우 공유 예측자가 각
특히, 초기 요약 벡터는 보통 제로 벡터, 즉
Translation equivariance in RNNs
개별 단계
To see why, let us assume that we have produced a new sequence
| (40) | ||||
| (41) |
Hence, unless we can guarantee that
다행히도, 우리가
이러한 시퀀스는 이제 왼쪽-shifting152152152152Note 우리가
We can now again analyse the operation of the RNN over a left-shifted verson of
where the substitution
Said differently,
| (42) |
where the index
Depth in RNNs
또한 여러 개의 RNN을 스택하는 것도 쉽습니다. 두 번째 RNN에 대한 입력 시퀀스로
이것은 종종 RNN을 최적화할 때 독특하게 도전적인 학습 역학을 도입하는데, 각각의 트레이닝 예가 업데이트 네트워크의 shared 파라미터에 많은 그래디언트 업데이트를 유도하기 때문이다. 여기에서 우리는 vanishing 및 explodinggradients (Bengio et al., 1994)와 같은 가장 두드러진 문제에 초점을 맞출 것이다. 또한, 그것은 단독으로 RNN에 대한 가장 영향력 있는 연구 중 일부에 박차를 가했다. 보다 상세한 개요를 위해, 우리는 RNN의 훈련 역학에 대해 매우 자세히 연구한 Pascanu et al. (2013)를 독자에게 참조하고, 해석적, 기하학적, 동적 시스템의 렌즈 등 다양한 관점에서 이러한 과제를 노출시켰다.
To illustrate vanishing gradients, consider a SimpleRNN with a sigmoidal activation function
Examples of such an activation include the logistic function,
예를 들어 다음 단어 예측 작업 (예: 예측 키보드에서 공통)을 고려 하 고 입력 텍스트 "Petar is Serbian. He was born on …[long paragraph] …Petar currently lives in "> . 여기서 다음 단어를 "세르비아"로 예측하는 것은 단락의 시작 부분을 고려하여 합리적으로 결론지을 수 있지만 이 입력 단계에 도달할 때까지 기울기가 사라져서 그러한 예제를 배우는 것이 매우 어려울 수 있다.
딥 피드포워드 뉴럴 네트워크들은 또한 ReLU 활성화(이는 exactly 0 또는 1 - 따라서 소실 구배 문제를 고정함)가 발명될 때까지 소실 구배 문제를 겪었다. 그러나 RNNs에서 ReLUs를 사용하면 업데이트 함수의 출력 공간이 이제 explodinggradients로 쉽게 이어질 수 있습니다. 업데이트 함수의 출력 공간이 이제 unbounded이고 Gradient descent는 모든 입력 단계에 대해 셀을 한 번 업데이트하여 업데이트의 규모를 빠르게 구축합니다. 역사적으로, 소실 구배 현상은 일찍이 순환 네트워크 사용의 중요한 장애물로 인식되었다. 이 문제에 대처하는 것은 우리가 다음에 설명하는 보다 정교한 RNN 층의 개발에 동기를 부여했다.
5.8 Long Short-Term Memory networks
RNNs에서 기울기 소실 효과를 크게 줄인 핵심 발명은 네트워크가 데이터 구동 방식으로 gating mechanisms 정보를 선택적으로 overwrite 정보를 사용할 수 있도록 하는 것이다. 이러한 gated RNNs의 두드러진 예는 Long Short-Term Memory (LSTM; Hochreiter and Schmidhuber (1997)) 및 Gated Recurrent Unit (GRU; Cho et al. (2014))를 포함한다. 여기서는 이러한 모델의 동작을 설명하기 위해 주로 LSTM, 특히 Graves (2013)에 의해 제시된 변형에 대해 논의할 것이다. LSTM의 개념은 다른 게이트형 RNN으로 쉽게 넘어간다.
이 섹션 전반에 걸쳐, 우리가 텍스트로 논의할 모든 LSTM 동작들을 예시하는 그림 20를 참조하는 것이 유용할 것이다.
LSTM은 memory cell, cell state vector,
SimpleRNN에서와 마찬가지로, 현재 입력 단계 및 이전 요약에 걸쳐 단일 완전 연결 신경망 계층을 사용하여 피쳐를 계산합니다. 156156156Note 우리는 활성화 함수를
| (43) |
그러나, 언급된 바와 같이, 우리는 이 벡터의 all이 셀에 들어가는 것을 허용하지 않는다. 따라서, 우리는 이것을 candidate 기능의 벡터라고 부르고, 이를
이러한 세 개의 게이트는 모두
| (44) | ||||
| (45) | ||||
| (46) |
마지막으로, 이들 게이트는 new 셀 상태,
| (47) | ||||
| (48) |
여기서
사라지는 기울기 문제를 정면으로 해결하는 것 외에도 게이티드 RNN은 SimpleRNN의 손이 닿지 않는 time-warping 변환에 대한 매우 유용한 형태의 불변도 해제한다는 것이 밝혀졌다.
Time warping invariance of gated RNNs
먼저 continuous-time setting159159159We focus on the continuous setting as it will be easier to reason about manipulations of time there. warp time 및 이러한 변환에 대한 불변성을 달성하기 위해 순환 모델의 요구 사항이 무엇인지 설명한다. 우리의 설명은 처음에 이 현상을 설명한 Tallec and Ollivier (2018)의 작업을 주로 따를 것이며, 실제로 불변 렌즈에서 RNN을 실제로 연구한 최초의 것 중 하나였다.
Let us assume a continuous time-domain signal
| (49) |
and, setting
| (50) |
우리는 RNN이 (예를 들어, 측정의 시간 단위를 변경함으로써) 신호가 샘플링되는 방식에 탄력적이기를 바란다. 형식적으로, 우리는 time warping161161161161161161161161variably-changing 샘플링 속도, 예를 들어 샘플링은 시간 도메인 전체에 걸쳐 자유롭게 가속 또는 감속할 수 있습니다. operation
또한, 모델의 클래스가 invariant to time warping인 경우, 클래스의 임의의 모델 및 그러한
이것은 잠재적으로 매우 유용한 속성입니다. 단기 종속성을 잘 모델링할 수 있는 RNN 클래스가 있고, 또한 이 클래스가 시간 와핑에 불변한다는 것을 보여줄 수 있다면, (단기 종속성을 갖는 신호의 시간 확장 와핑에 대응할 것이기 때문에) 장기 종속성도 유용하게 캡처할 방식으로 그러한 모델을 트레이닝하는 것이 가능하다는 것을 알 수 있다. 곧 볼 수 있듯이, gated LSTM과 같은 RNN 모델이 장거리 종속성을 모델링하도록 제안된 것은 우연이 아니다. 시간 왜곡 불변성을 달성하는 것은 LSTM의 입력/잊음/출력 게이트와 같은 게이팅 메커니즘의 존재와 밀접하게 결합된다.
When time gets warped by
| (51) |
그러나, 상기 도함수는 워핑된 시간
| (52) |
and, for our (continuous-time) RNN to remain invariant to any time warping
Now, remark that, from the point of view of a discrete RNN model under time warping, its input
and, once again, setting
Finally, we swap
| (53) |
We may quickly deduce that SimpleRNNs (Equation 39) are not time warping invariant, given that they do not feature the second term in Equation 53. Instead, they fully overwrite
또한,
Combined with our requirement of monotonically increasing
exactly matching the LSTM gating equations (e.g. Equation 44). 주요 차이점은 LSTMs 컴퓨팅 게이팅 vectors인 반면, 수학식 53는
우리가 한 일을 요약하기 위해 여기서 잠시 멈출 가치가 있다. 우리의 RNN 클래스가 (비파괴적) 시간 와핑에 불변임을 요구함으로써, 우리는 그것이 가져야 하는 필요한 형태를 도출했고(식 53), 그것이 gated RNNs의 클래스에 정확히 대응함을 보여주었다. 이러한 관점에서 게이트의 주요 역할은 워핑 변환의 derivative
class invariance의 개념은 이전에 연구했던 invariance와 다소 다르다. 즉, 일단
예를 들어, 우리는 종종 우리의 신호 내에서 추적에 관심이 있는 종속성의 범위가
수학식 52에 대한 분석해를 분석하면, 우리의 게이티드 RNN에 의한
또한,
두 관측치를 결합하면
Sequence-to-sequence learning with RNNs
RNN-백된 계산을 사용하는 하나의 두드러진 역사적 예는 자연 언어들의 sequence-to-sequence 번역 작업들, 이를 테면 machine translation이다. 선구적인 seq2seq work by Sutskever et al. (2014) pass the summary vector,
이것은 요약 벡터
The bottleneck effect has recently received substantial attention in the graph representation learning community (Alon and Yahav, 2020), as well as neural algorithmic reasoning (Cappart et al., 2021).으로 지칭된다. 그것의 고정된 용량은 대응하는 시퀀스를 생성하는 데 도움이 되는 방식으로, 전체 입력 시퀀스의 콘텐츠를 표현하기에 충분해야 하는 동시에, 실질적으로 상이한 길이의 입력 시퀀스도 지원한다(도 21).
실제로, 출력의 상이한 단계들은 입력의 상이한 부분들에 포커싱(attend)하기를 원할 수 있고, 이러한 모든 선택들은 병목 벡터를 통해 나타내기 어렵다. 이 관찰을 통해 인기 있는 recurrent attention 모델은 Bahdanau et al. (2014)에 의해 제안되었다. 처리의 모든 단계에서, query vector은 RNN에 의해 생성되며; 이 쿼리 벡터는 주로 이들에 대한 가중합을 계산함으로써 every time-step
마지막으로, 참석하는 동안 입력 콘텐츠의 부분에 동적으로 초점을 맞추는 soft 방법을 제공하지만, 실질적인 작업도 입력에 주의를 집중시키는 더 많은 explicit 방법을 배웠다. 이렇게 하는 강력한 알고리즘 기반 방법은 pointer network Vinyals et al. (2015)의 variable-sized 입력의 요소를 가리키도록 허용하는 순환 주의의 간단한 수정을 제안한다. 그런 다음 이러한 발견은 포인터 네트워크 지원 LSTM에 의해 지원되는 seq2seq 모델을 정렬되지 않은 세트로 일반화하는 set2set 아키텍처 (Vinyals et al., 2016)로 일반화되었다.
6 Problems and Applications
불변과 대칭은 모두 실제 세계에서 발생하는 데이터에 걸쳐 너무 흔하게 발생한다. 따라서 21세기 기계 학습의 가장 인기 있는 응용 프로그램 중 일부가 기하학 딥 러닝의 직접적인 부산물로 발생했다는 것은 놀라운 일이 아니며, 아마도 때로는 이 사실을 완전히 깨닫지 못한 채 발생한다. 기하학적 딥 러닝에서 영향력 있는 작품과 흥미롭고 유망한 새로운 응용 프로그램에 대한 개요를 독자들에게 제공하고자 한다. 우리의 동기는 두 가지이다: 5개의 기하학 영역이 일반적으로 발생하는 과학 및 산업 문제의 특정 사례를 보여주고 기하학 딥러닝 원리와 아키텍처에 대한 추가 연구를 위한 추가 동기를 제공한다.
Chemistry and Drug Design
그래프에서 표현 학습의 가장 유망한 응용 프로그램 중 하나는 계산 화학 및 drug development이다. 165165165Many drugs are not designed but discovered, often serendipitously. The historic source of a number of drugs from the plant kingdom is reflected in their names: e.g., the acetylsalicylic acid, commonly known as aspirin, is contained in the bark of the willow tree (Salix alba), whose medicinal properties are known since antiquity. 전통 약물은 질병과 관련된 화학 과정을 활성화하거나 방해하기 위해 일반적으로 단백질인 일부 표적 분자에 화학적으로 부착(결합)되도록 설계된 작은 분자이다. 불행히도, 약물 개발은 매우 길고 비용이 많이 드는 과정입니다: 신약을 시장에 출시할 때 일반적으로 10년 이상이 걸리고 10억 달러 이상의 비용이 듭니다. 그 이유 중 하나는 많은 약물이 다른 단계에서 실패하는 테스트 비용인데, 후보의 5% 미만이 마지막 단계로 도달한다(예: Gaudelet et al. (2020) 참조).
화학적으로 합성 가능한 분자의 공간이 매우 크기 때문에(<수학 idx=0>수학>을 중심으로 추정됨), 표적 결합 친화도, 낮은 독성, 용해도 등과 같은 특성이 적절히 조합된 후보 분자를 탐색한다. 실험적으로 수행할 수 없으며, virtual 또는 in silico screening (즉, 유망한 분자를 식별하기 위한 계산 기술의 사용)이 사용된다. 기계 학습 기술은 이 작업에서 점점 더 두드러진 역할을 한다. 가상 약물 스크리닝을 위한 Geometric Deep Learning 사용의 두드러진 예는 모델 박테리아 Escherichia coli에서 후보 분자가 성장을 억제하는지 여부를 예측하도록 훈련된 그래프 신경망을 사용하여 Stokes et al. (2020)에 의해 최근에 나타났으며, 이는 당뇨병 치료를 위해 원래 표시된 분자인 Halicin이 알려져 있는 항생제 내성을 가진 박테리아 균주에 대해서도 매우 강력한 항생제임을 효과적으로 발견할 수 있었다. 이 발견은 과학 및 대중 언론에서 널리 다뤄졌다.
보다 광범위하게 말하면, 그래프로 모델링된 분자에 대한 그래프 신경망의 적용은 매우 활발한 분야였으며, 최근 물리학에서 영감을 받아 회전 및 변환에 대한 등분성을 통합하는 여러 전문화된 아키텍처가 제안되었다(예: Thomas et al. (2018); Anderson et al. (2019); Fuchs et al. (2020); Satorras et al. (2021) 참조). 또한, Bapst et al. (2020)는 이전에 사용 가능한 물리 기반 모델을 능가하는 방식으로 유리의 역학을 예측적으로 모델링하기 위한 GNN의 유용성을 성공적으로 입증했다. 역사적으로 계산 화학의 많은 작업은 많은 공통 특성을 공유하는 현대 그래프 신경망 구조의 전구체였다.
Drug Repositioning
완전히 새로운 약물 후보를 생성하는 것은 잠재적으로 실행 가능한 접근법이지만, 새로운 치료법을 개발하기 위한 더 빠르고 저렴한 방법은 새로운 목적으로 이미 승인된 약물(단독 또는 조합)을 평가하려는 약물 재배치이다. 이것은 종종 약물을 시장에 출시하는 데 필요한 임상 평가의 양을 상당히 감소시킨다. 어느 정도 추상화 수준에서 신체 생화학에 대한 약물의 작용과 서로와 다른 생체 분자 사이의 상호 작용은 그래프로 모델링될 수 있으며, 이는 저명한 네트워크 과학자 알베르트-라슬로 바라바시가 만든 '네트워크 의학' 개념을 생성하고 새로운 치료법을 개발하기 위해 생물학적 네트워크(단백질-단백질 상호작용 및 대사 경로 등)의 사용을 옹호한다(Barabási et al., 2011)
기하학적 딥 러닝은 이러한 종류의 접근법에 대한 현대적인 견해를 제공한다. 눈에 띄는 초기 예는 그래프 신경망을 사용하여 약물-약물 상호작용 그래프에서 에지 예측으로 공식화된 combinatorial therapy 또는 polypharmacy으로 알려진 약물 재배치 형태로 부작용을 예측하는 Zitnik et al. (2018)의 작업이다. 이 글을 쓸 당시 주로 진행 중인 신종 코로나바이러스 팬데믹은 코로나19 (Gysi et al., 2020)에 대해 이러한 접근법을 적용하려는 시도에 특별한 관심을 불러일으켰다. 마지막으로, 약물 재배치가 반드시 합성 분자로 제한되는 것은 아니라는 점에 유의해야 한다: Veselkov et al. (2019)는 식품에 포함된 약물 유사 분자에 유사한 접근법을 적용했다(언급했듯이 많은 식물성 식품에는 종양 치료에 사용되는 화합물의 생물학적 유사체가 포함되어 있기 때문이다). 이 텍스트의 저자 중 한 명은 이러한 약물 같은 분자가 풍부한 '하이퍼푸드' 성분을 기반으로 흥미로운 레시피를 설계하는 분자 셰프와 협력함으로써 이 연구에 창의적인 반전을 추가하는 협업에 참여한다.
Protein biology
우리는 이미 단백질을 약물 표적으로 언급했기 때문에 이 주제에 대해 몇 분 더 시간을 보낼 수 있습니다. 단백질은 병원체(항체)에 대한 보호, 피부에 구조 부여(콜라겐), 세포로 산소 수송(헤모글로빈), 화학 반응 촉매(효소), 신호 전달(많은 호르몬은 단백질)을 포함하여 우리 몸에서 무수히 많은 기능을 가진 가장 중요한 생체 분자 중 하나이다. 화학적으로 말하면 단백질은 바이오폴리머 또는 정전기력의 영향을 받아 복잡한 3D 구조로 접히는 아미노산이라고 하는 작은 빌딩 블록의 사슬이다. 단백질에 기능을 부여하는 것은 이 구조이며, 167167167A common metaphor, dating back to the chemistry Nobel laureate Emil Fischer is the Schlüssel-Schloss-Prinzip (‘key-lock principle’, 1894): two proteins often only interact if they have geometrically and chemically complementary structures. 이므로 단백질이 어떻게 작동하고 무엇을 하는지 이해하는 데 중요하다. 단백질은 약물 요법의 일반적인 표적이기 때문에 제약 산업은 이 분야에 대한 관심이 높다.
단백질 생물정보학에서 문제의 전형적인 계층은 단백질 sequence (20개의 서로 다른 아미노산의 알파벳에 걸쳐 있는 1D 문자열)에서 3D structure (‘단백질 접힘’으로 알려진 문제)에서 function (‘단백질 기능 예측’). DeepMind's AlphaFold by Senior et al. (2020)와 같은 최근 접근법은 단백질 구조를 나타내기 위해 contact graphs을 사용했다. Gligorijevic et al. (2020)는 이러한 그래프에 그래프 신경망을 적용하면 순전히 시퀀스 기반 방법을 사용하는 것보다 더 나은 함수 예측을 달성할 수 있음을 보여주었다.
Gainza et al. (2020) developed168168168
Oncologial target PD-L1 protein surface (heat map indicated the predicted binding site) and the designed binder (shown as ribbon diagram).a Geometric Deep Learning pipeline called MaSIF predicting proteins between their 3D structure. MaSIF는 단백질을 메쉬로 이산화한 분자 표면으로 모델링하며, 이 표현이 내부 접힘 구조를 추상화할 수 있기 때문에 상호작용을 다룰 때 유리하다고 주장한다. 이 구조는 작은 지역 측지 패치에서 미리 계산된 화학적 및 기하학적 특징으로 작동하는 메쉬 합성곱 신경망을 기반으로 했다. 네트워크는 인터페이스 예측, 리간드 분류 및 도킹을 포함한 여러 작업을 다루기 위해 단백질 데이터 뱅크의 몇 천 개의 공동 결정 단백질 3D 구조를 사용하여 훈련되었으며 de novo (‘from scratch’) 암에 대한 생물학적 면역 치료 약물로 작용할 수 있는 단백질의 설계를 허용했다. 이러한 단백질은 프로그래밍된 세포 사멸 단백질 복합체(PD-1/PD-L1)의 부분 사이의 단백질-단백질 상호작용(PPI)을 억제하고 면역 시스템에 종양 세포를 공격하는 능력을 제공하도록 설계되었다.
Recommender Systems and Social Networks
그래프 표현 학습의 첫 번째 대중화된 대규모 애플리케이션은 주로 소셜 네트워크169169169
추천 시스템의 맥락에서 발생했다. 추천인은 잠재적으로 서비스에 대한 이전 상호 작용 이력에 따라 사용자에게 제공할 콘텐츠를 결정하는 작업을 수행합니다. 이것은 전형적으로 링크 예측 objective: 다양한 노드(콘텐츠의 조각)의 임베딩을 감독하여 이들이 related (예를 들어, 일반적으로 함께 보기)로 간주되는 경우 서로 가깝게 유지되도록 한다. 그런 다음 두 임베딩(예: 내부 곱)의 proximity은 콘텐츠 그래프의 에지에 의해 링크될 확률로 해석될 수 있으며, 따라서 사용자가 쿼리하는 모든 콘텐츠에 대해 하나의 접근법은 임베딩 공간에서 자신의
이 방법론의 선구자 중에는 미국 이미지 공유 및 소셜 미디어 회사인 Pinterest가 있다: 생산에서 GNN의 첫 번째 성공적인 배포 중 하나를 제시하는 것 외에도, 그들의 방법, PinSage170170170Pinterest had also presented follow-up work, PinnerSage (Pal et al., 2020), which effectively integrates user-specific contextual information into the recommender.은 그래프 표현 학습 scalable을 수백만 개의 노드와 수십억 개의 에지 (Ying et al., 2018)의 그래프로 성공적으로 만들었다. 특히 제품 권장 사항의 공간에서 관련 응용 프로그램이 곧 뒤따랐다. 현재 생산에 배포되는 인기 있는 GNN 지원 추천으로는 Alibaba's Aligraph (Zhu et al., 2019)와 Amazon's P-Companion (Hao et al., 2020)가 있다. 이러한 방식으로, 그래프 딥 러닝은 매일 수백만 명의 사람들에게 영향을 미치고 있다.
소셜 네트워크에 대한 콘텐츠 분석의 맥락에서 또 다른 주목할 만한 노력은 (2019년, 트위터에 의해) 첫 번째 GNN 기반 스타트업 중 하나인 파불라 AI이다. 본문과 그의 팀의 저자 중 한 명이 설립한 이 스타트업은 소셜 네트워크 (Monti et al., 2019)에서 잘못된 정보를 탐지하는 새로운 기술을 개발했다. 파불라의 해결책은 특정 뉴스 아이템의 확산을 공유한 사용자들의 네트워크에 의해 모델링하는 것으로 구성된다. 사용자는 한 사람이 다른 사람으로부터 정보를 다시 공유하면 연결되지만 소셜 네트워크에서 서로 팔로우하면 연결됩니다. 그런 다음 이 그래프는 그래프 신경망에 공급되어 전체 그래프를 사실 확인 본체 간의 일치를 기반으로 하는 레이블과 함께 '참' 또는 '가짜' 내용으로 분류한다. 빠른 속도로 안정되는 강력한 예측력(종종 뉴스 확산 후 몇 시간 이내)을 입증하는 것 외에도 개별 사용자 노드의 임베딩을 분석한 결과 잘못된 정보를 공유하는 경향이 있는 사용자의 명확한 군집링이 나타났으며 잘 알려진 'echo chamber' 효과를 예시했다.
Traffic forecasting
교통 네트워크는 또 다른 영역171171171
A road network (top) with its corresponding graph representation (bottom).여기서 Geometric Deep Learning 기술은 이미 전 세계적으로 수십억 명의 사용자에 대해 실행 가능한 영향을 미치고 있다. 예를 들어, 도로 네트워크 상에서, 우리는 교차로를 노드로서 관찰할 수 있고, 도로 세그먼트들을 이들을 연결하는 에지들로서 관찰할 수 있다 - 이 에지들은 그 후 도로 길이, 그들의 세그먼트를 따른 현재 또는 과거 속도들 등에 의해 특성화될 수 있다.
이 공간의 표준 예측 문제 중 하나는 estimated time of arrival (ETA): 주어진 후보 경로에 대해, 이를 횡단하는 데 필요한 예상 이동 시간을 제공하는 것이다. 이러한 문제는 사용자 대면 트래픽 추천 앱뿐만 아니라 자체 운영 내에서 이러한 예측을 활용하는 기업(음식 배달 또는 승차 공유 서비스와 같은)의 경우에도 이 공간에서 필수적이다.
그래프 신경망 172172172
Several of the metropolitan areas where GNNs are serving queries within Google Maps, with indicated relative improvements in prediction quality (40+% in cities like Sydney).have shown immense promise in this space: they can, 예를 들어, 도로 네트워크의 관련 서브 그래프에 대한 ETA를 직접 예측하는 데 사용될 수 있다(효과적으로, a graph regression task). 이러한 접근법은 딥마인드에 의해 성공적으로 활용되어 현재 Google Maps (Derrow-Pinion et al., 2021)에서 생산에 배포되는 GNN 기반 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 이동 시간 예측이 현재 ConSTGAT 모델에 의해 제공되는 바이두 지도 팀에 의해 유사한 수익이 관찰되었으며, 이는 그래프 주의 네트워크 모델 (Fang et al., 2020)의 시공간 변형을 기반으로 한다.
Object recognition
컴퓨터 비전에서 기계 학습에 대한 주요 벤치마크인 173173173
One example input image, the likes of which can be found in ImageNet, representing the “tabby cat” class.techniques는 [em class="ltx_emph ltx_font_italic" id="Ch0.S6.SS0.SSS0.Px6.p1.1.1">classify a central object within a provided image. ImageNet 대규모 시각 인식 챌린지 (Russakovsky et al., 2015, ILSVRC)는 기하 딥러닝 초기 개발의 많은 부분을 추진한 연간 객체 분류 챌린지였다. ImageNet은 웹에서 긁어낸 사실적인 이미지를 1000개의 카테고리 중 하나로 분류하기 위해 모델을 필요로 한다: 그러한 카테고리는 동시에 다양하며(생물과 무생물 모두를 포함함), 특정적이다(다양한 고양이와 개의 품종을 구별하는 데 중점을 둔 많은 클래스와 함께). 따라서 ImageNet에서 우수한 성능은 일반적인 사진에서 고체 수준의 특징 추출을 암시하며, 이는 다양한 transfer learning preset-trained ImageNet 모델의 설정을 위한 기초를 형성했다.
ImageNet에서 컨볼루션 신경망의 성공, 특히 ILSVRC 2012를 큰 마진으로 휩쓸었던 Krizhevsky et al. (2012)의 AlexNet 모델은 학계와 산업계 모두에서 전반적으로 딥 러닝의 채택을 주도했다. 그 이후로 CNN은 VGG-16 (Simonyan and Zisserman, 2014)174174174Interestingly, the VGG-16 architecture has sixteen convolutional layers and is denoted as “very deep” by the authors. Subsequent developments quickly scaled up such models to hundreds or even thousands of layers., Inception (Szegedy et al., 2015) 및 ResNets (He et al., 2016)와 같은 많은 인기 있는 아키텍처를 출시하면서 ILSVRC의 상위 순위에 지속적으로 올랐으며, 이는 이 작업에서 인간 수준의 성능을 성공적으로 능가했다. 이러한 아키텍처에 의해 사용되는 설계 결정 및 정규화 기술(예: 정류된 선형 활성화 (Nair and Hinton, 2010), 드롭아웃 (Srivastava et al., 2014), 스킵 연결 (He et al., 2016) 및 배치 정규화 (Ioffe and Szegedy, 2015))은 오늘날 사용되는 많은 효과적인 CNN 모델의 백본을 형성한다.
객체 분류와 동시에 객체 detection; 즉, 이미지 내에서 모든 관심 객체를 분리하고 특정 클래스로 태그를 지정합니다. 이러한 작업은 이미지 캡셔닝에서부터 자율 주행 차량에 이르기까지 다양한 다운스트림 문제와 관련이 있다. 예측이 localised이어야 하므로 보다 세분화된 접근법이 필요하다. 이 공간의 한 가지 영향력 있는 예는 모델 (Girshick et al., 2014; Girshick, 2015; Ren et al., 2015; He et al., 2017)의 R-CNN 계열을 포함하는 반면, semantic segmentation, Badrinarayanan et al. (2017)의 SegNet 모델은 VGG-16 백본에 의존하는 인코더-디코더 아키텍처로 영향력이 있음이 입증되었다.
Game playing
컨볼루션 신경망은 또한 reinforcement learning (RL) 환경에서 번역 불변 특징 추출기로서 두드러진 역할을 하며, 관측된 상태가 그리드 도메인에서 표현될 수 있을 때마다; 예를 들어, 픽셀로부터 비디오 게임을 플레이하는 것을 학습하는 경우이다. 이 경우 CNN은 입력을 플랫 벡터 표현으로 줄이는 역할을 하며, 그 다음 RL 에이전트의 동작을 구동하는 policy 또는 value functions을 유도하는 데 사용된다. 강화 학습의 세부 사항은 이 섹션의 초점이 아니지만, 우리는 지난 10년 동안 딥 러닝의 가장 영향력 있는 결과 중 일부가 CNN 지원 강화 학습을 통해 발생했다는 점에 주목한다.
여기서 확실히 언급할 가치가 있는 하나의 특정 예는 DeepMind의 AlphaGo (Silver et al., 2016)이다. 배치된 돌들의 현재 위치를 나타내는
이는 이미 광범위한 인공 지능을 위한 중요한 이정표를 나타냈지만, 예를 들어, chess175175175 수년에 걸쳐 아타리 2600 플랫폼을 위해 여러 고성능 RL 에이전트가 제안되었지만, 오랫동안 제공된 57개 게임의 all에서 인간 수준의 성능에 도달할 수 없었다. 이 장벽은 마침내 에이전트57 (Badia et al., 2020)로 깨졌는데, 이는 강력한 탐색적 정책에서 순수하게 착취적 정책에 이르기까지 파라메트릭 정책 패밀리를 사용하고 훈련의 여러 단계에서 서로 다른 방식으로 우선순위를 매겼다. 그것은 또한 비디오 게임의 프레임 버퍼에 적용된 CNN에 의해 계산의 대부분을 구동한다.
Go의 게임은
Text and speech synthesis
이미지(자연적으로 two-dimensional grid) 외에도 여러 (기하학적) 딥 러닝의 가장 강력한 성공이 1차원 그리드에서 발생했습니다. 이의 자연적인 예로는 text 및 speech, folding the Geometric Deep Learning blueprint within various areas including natural language processing and digital signal processing.
이 공간에서 가장 널리 적용되고 널리 알려진 작업 중 일부는 synthesis: being able to generate speech or text, unconditionally or conditioned on a specific prompt에 초점을 맞춘다. 이러한 설정은 text-to-speech (TTS), 예측 텍스트 완료 및 기계 번역과 같은 많은 유용한 작업을 지원할 수 있습니다. 텍스트 및 음성 생성을 위한 다양한 신경망 구조가 지난 10년 동안 제안되었는데, 초기에는 대부분 recurrent 신경망(예를 들어, 전술한 seq2seq 모델 (Sutskever et al., 2014) 또는 recurrent attention (Bahdanau et al., 2014))을 기반으로 한다. 그러나 최근에는 합성곱 신경망과 트랜스포머 기반 아키텍처로 점차 대체되고 있다.
이 설정에서 간단한 1D 컨볼루션의 한 가지 특별한 한계는 지금까지 생성된 시퀀스를 커버하기 위해 많은 레이어를 필요로 하는 선형 성장 receptive field이다. Dilated176176176Dilated convolution is also referred to as à trous convolution (literally “holed” in French).convolutions, instead, offer a exponentially growing receptive field with a equivalent number of parameters. 이로 인해, 그들은 모든 입력 위치에 대한 병렬성으로 인해 계산 복잡도를 크게 줄이면서 기계 번역 (Kalchbrenner et al., 2016)에서 RNN과 경쟁하게 되는 매우 강력한 대안을 입증했다. 177177177Such techniques have also outperformed RNNs on problems as diverse as protein-protein interaction (Deac et al., 2019).The most well-known application of dilated convolutions is WaveNet model from van den Oord et al. (2016a). WaveNets는 확장을 사용하여 raw waveform (일반적으로 초당 16,000 샘플 이상) 수준에서 음성을 합성할 수 있음을 보여주었으며, 최고의 이전 텍스트 음성 변환(TTS) 시스템178178178Besides this, the WaveNet model proved capable of generating piano pieces.보다 훨씬 더 "인간과 유사한" 음성 샘플을 생성했다. 그 후, WaveNets의 계산이 훨씬 더 간단한 모델인 WaveRNN (Kalchbrenner et al., 2018)에서 증류될 수 있음을 추가로 입증했으며 이 모델은 산업 규모에서 이 기술을 효과적으로 배포할 수 있도록 했다. 이를 통해 Google Assistant와 같은 서비스에 대한 대규모 음성 생성을 위한 배포뿐만 아니라 종단 간 암호화를 사용하는 Google Duo와 같은 효율적인 온-디바이스 계산을 가능하게 했다.
트랜스포머 (Vaswani et al., 2017)는 리커런트 및 컨벌루션 아키텍처 모두의 한계를 능가했으며, self-attention은 기계 번역에서 최첨단 성능을 달성하는 데 충분합니다. 그 후, 그들은 자연어 처리에 혁명을 일으켰다. BERT (Devlin et al., 2018)와 같은 모델에서 제공하는 사전 훈련된 임베딩을 통해, 자연어 처리의 많은 다운스트림 애플리케이션에 대해 트랜스포머 계산이 가능하게 되었다. 예를 들어, 구글은 검색 엔진에 전력을 공급하기 위해 BERT 임베딩을 사용한다.
틀림없이 지난 몇 년 동안 트랜스포머의 가장 널리 퍼진 응용 프로그램은 텍스트 생성이며, 주로 OpenAI에서 모델들의 Generative Pre-trained Transformer (GPT, Radford et al. (2018, 2019); Brown et al. (2020)) 계열에 의해 자극된다. 특히, GPT-3 (Brown et al., 2020)는 스크래핑된 텍스트 말뭉치의 웹 스케일 양에 대한 다음 단어 예측에 대해 훈련된 1,750억 개의 학습 가능한 매개변수로 언어 모델 학습을 성공적으로 확장했다. 이를 통해 다양한 언어 기반 과제에서 높은 잠재력을 가진 소수 샷 학습자가 될 수 있을 뿐만 아니라 일관되고 인간다운 텍스트 조각을 생성할 수 있는 능력을 갖춘 텍스트 생성기가 될 수 있었다. 이 기능은 많은 양의 다운스트림 응용 프로그램을 암시할 뿐만 아니라 방대한 미디어 보도를 유도했다.
Healthcare
의료 영역에서의 응용은 기하 딥러닝의 또 다른 유망한 분야이다. 이러한 방법들이 사용되고 있는 방법은 여러 가지가 있다. 먼저, CNN과 같은 보다 전통적인 아키텍처는 예를 들어, 중환자실 입원 기간 예측 (Rocheteau et al., 2020) 또는 망막 스캔 (De Fauw et al., 2018)로부터 시력을 위협하는 질병의 진단을 위해 격자 구조 데이터에 적용되었다. Winkels and Cohen (2019)는 3D 로토-번역 그룹 컨볼루션 네트워크를 사용하면 기존 CNN에 비해 폐 결절 검출의 정확도가 향상됨을 보여주었다.
둘째, 기하학적 표면으로 장기를 모델링하는 메쉬 합성곱 신경망은 유전학 관련 정보 (Mahdi et al., 2020)에서 얼굴 구조를 재구성하는 것부터 뇌 피질 부분 세포화 (Cucurull et al., 2018)에서 피질 표면 구조 (Besson et al., 2020)에서 인구통계학적 특성을 회귀하는 것까지 다양한 작업을 다룰 수 있는 것으로 나타났다. 후자의 예는 뇌를 복잡한 주름179179179Such structure of the brain cortex are called sulci and gyri in anatomical literature.이 매우 비유클리드 구조로 증가하는 표면으로 간주하려는 신경과학의 증가 추세를 나타낸다.
동시에, 신경과학자들은 종종 일부 인지 기능을 수행할 때 함께 활성화되는 뇌의 다양한 영역을 나타내는 뇌의 기능적 네트워크을 구성 및 분석하려고 시도하며, 이러한 네트워크는 종종 뇌의 어떤 영역이 더 많은 혈액을 소비하는지 실시간으로 보여주는 기능적 자기 공명 영상(fMRI)을 사용하여 구성된다. 180180180Typically, Blood Oxygen-Level Dependent (BOLD) contrast imaging is used. 이러한 기능적 네트워크는 환자 인구통계(예: 남성과 여성을 구분, Arslan et al. (2018))를 드러낼 수 있을 뿐만 아니라 신경병리학적 진단에 사용될 수 있으며, 이는 의학에서 기하학 딥 러닝의 세 번째 응용 분야이다. 이러한 맥락에서 Ktena et al. (2017)는 자폐 스펙트럼 장애와 같은 신경학적 상태의 예측을 위한 그래프 신경망의 사용을 개척했다. 뇌의 기하학적 구조와 기능적 구조는 밀접한 관련이 있는 것으로 보이며, 최근 Itani and Thanou (2021)는 신경학적 질환 분석에서 이들을 공동으로 활용하는 것의 이점을 지적했다.
넷째, patient networks은 ML 기반 의료 진단에서 더욱 두드러지고 있다. 이러한 방법의 근거는 환자 인구통계학적, 유전형 및 표현형 유사성의 정보가 질병 예측을 개선할 수 있다는 것이다. Parisot et al. (2018)는 신경학적 질환 진단을 위한 인구통계학적 특징으로부터 생성된 환자의 네트워크에 그래프 신경망을 적용하여 그래프의 사용이 예측 결과를 향상시킨다는 것을 보여준다. Cosmo et al. (2020)는 이 설정에서 잠재 그래프 학습의 이점(이에 의해 네트워크 learns a unknown patient graph)을 보여주었다. 후자의 연구는 뇌 영상 (Miller et al., 2016)를 포함한 의료 데이터의 대규모 모음인 UK Biobank의 데이터를 사용했다.
병원 환자에 대한 풍부한 데이터는 electronic health records (EHRs)181181181Publicly available anonymised critical-care EHR datasets include MIMIC-III (Johnson et al., 2016) and eICU (Pollard et al., 2018).에서 찾을 수 있다. 환자의 진행에 대한 포괄적인 보기를 제공하는 것 외에도 EHR 분석을 통해 relating 유사한 환자를 함께 사용할 수 있다. 이는 진단에서 일반적으로 사용되는 패턴 인식 방법과 일치합니다. 따라서 임상의는 임상 특성의 패턴을 인식하기 위해 experience을 사용하며 임상의의 경험이 상태를 빠르게 진단할 수 있도록 할 때 사용되는 주요 방법일 수 있다. 이러한 선을 따라 여러 연구에서 의사의 노트 (Malone et al., 2018), 입원 (Rocheteau et al., 2021)에 대한 진단 유사성 또는 완전히 연결된 그래프 (Zhu and Razavian, 2019)의 임베딩을 분석하여 EHR 데이터를 기반으로 환자 그래프를 구성하려고 시도한다. 모든 경우에, EHR을 처리하기 위해 그래프 표현 학습을 사용하는 것이 유리한 결과가 나타났다.
Particle physics and astrophysics
고에너지 물리학자들은 아마도 새로운 빛나는 도구인 그래프 신경망을 채택한 자연 과학 분야의 첫 번째 도메인 전문가 중 하나일 것이다. 최근 리뷰 논문 Shlomi et al. (2020)182182182
Part of the Large Hadron Collider detectors. 은 기계 학습이 역사적으로 입자 물리 실험에 많이 사용되어 왔음을 지적하며, 검출기에서 측정된 정보로부터 기본 물리 과정을 추론할 수 있는 복잡한 역함수를 학습하거나 분류 및 회귀 작업을 수행한다. 후자의 경우 CNN과 같은 표준 딥러닝 아키텍처를 사용할 수 있기 위해 데이터를 그리드와 같은 부자연스러운 표현으로 강제할 필요가 종종 있었다. 그러나 물리학의 많은 문제는 풍부한 관계와 상호 작용을 가진 무질서 집합 형태의 데이터를 포함하며, 이는 자연스럽게 그래프로 표현될 수 있다.
고에너지 물리학에서 중요한 응용 프로그램 중 하나는 particle jets – 단일 초기 이벤트에서 비롯된 입자의 여러 연속 상호작용 및 부패로 인해 발생하는 안정적인 입자의 스프레이입니다. CERN에 구축된 가장 크고 가장 잘 알려진 입자 가속기인 Large Hardon Collider에서 이러한 제트는 거의 빛의 속도로 양성자가 충돌한 결과이다. 이러한 충돌은 힉스 보손이나 꼭대기 쿼크와 같은 거대한 입자를 생성한다. 충돌 사건의 식별 및 분류는 새로운 입자의 존재에 대한 실험적 증거를 제공할 수 있기 때문에 매우 중요하다.
Multiple Geometric Deep Learning approaches 183183183
Example of a particle jet. 은 DeepSet과 Dynamic Graph CNN 아키텍처를 기반으로 입자 제트 분류 작업(particle jet classification task)을 위해 최근에 제안되었다. 보다 최근에, 또한, 물리학적 고려로부터 유도된 특수화된 아키텍처를 개발하고 해밀토니안 또는 라그랑지안 역학(예를 들어, Sanchez-Gonzalez et al. (2019); Cranmer et al. (2020) 참조), 로렌츠 그룹에 대한 등분산(물리학에서 공간과 시간의 기본 대칭) (Bogatskiy et al., 2020) 또는 심지어 기호 추론 (Cranmer et al., 2019)를 통합하고 데이터로부터 물리 법칙을 학습할 수 있는 것에 대한 관심이 있었다. 이러한 접근법은 더 해석 가능하고(따라서 도메인 전문가에 의해 더 '신뢰할 수 있는' 것으로 간주됨) 더 나은 일반화를 제공한다.
입자 가속기 외에도 입자 검출기는 현재 천체물리학자에 의해 동일한 소스에서 오는 전자기 방사선, 중력파 및 중성미자와 같은 이질적인 신호의 조정된 관찰의 새로운 방식인 multi-messenger 천문학에 대해 사용되고 있다. 중성미자는 물질과 거의 상호작용하지 않으므로 실질적으로 영향을 받지 않고 엄청난 거리를 이동하기 때문에 중성미자 천문학이 특히 중요하다. 184184184
The characteristic pattern of light deposition in IceCube detector from background events (muon bundles, left) and astrophysical neutrinos (high-energy single muon, right). Choma et al. (2018) 탐지 중성미자는 광학 망원경에 접근할 수 없는 물체를 관찰할 수 있지만 엄청나게 큰 크기의 탐지기가 필요합니다 – IceCube 중성미자 관측소는 남극 대륙 빙붕의 입방 킬로미터를 탐지기로 사용합니다. 고에너지 중성미자를 탐지하면 블레이저와 블랙홀과 같은 우주에서 가장 신비로운 물체들 중 일부를 밝힐 수 있다. Choma et al. (2018)는 기하학 신경망을 사용하여 IceCube 중성미자 검출기의 불규칙한 기하학을 모델링하여 천체 물리학 소스에서 나오는 중성미자를 감지하고 배경 이벤트에서 분리하는 데 훨씬 더 나은 성능을 보여준다.
중성미자 천문학이 코스모스 연구에서 큰 가능성을 제시하지만, 전통적인 광학 망원경과 전파 망원경은 여전히 천문학자들의 ‘전투 말’이다. 이러한 전통적인 도구를 통해 기하 딥러닝은 여전히 데이터 분석을 위한 새로운 방법론을 제공할 수 있다. 예를 들어, Scaife and Porter (2021)는 무선 은하의 분류를 위해 회전 방정식의 CNN을 사용했고, McEwen et al. (2021)는 원시 우주의 형성을 밝힐 수 있는 빅뱅의 유물인 우주 마이크로파 배경 복사의 분석을 위해 구형 CNN을 사용했다. 이미 언급했듯이 그러한 신호는 구에 자연스럽게 표현되며 등분산 신경망은 이를 연구하기 위한 적절한 도구이다.
Virtual and Augmented Reality
기하학적 딥 러닝 방법의 큰 클래스 개발의 동기로 작용한 또 다른 응용 분야는 특히 가상 및 증강 현실을 위한 3D 신체 모델을 다루는 컴퓨터 비전 및 그래픽이다. 아바타와 같은 영화에서 특수 효과를 생성하는 데 사용되는 모션 캡처 기술은 종종 두 단계로 작동한다: 첫째, 신체의 모션 또는 배우의 얼굴을 캡처하는 3D 스캐너로부터의 입력은 일반적으로 이산 다양체 또는 메쉬로 모델링되는 일부 표준 모양과 대응된다(이 문제는 종종 '분석'이라고 함). 둘째, 새로운 형상을 생성하여 입력의 동작을 반복한다('합성'). 컴퓨터 그래픽스 및 비전 (Masci et al., 2015; Boscaini et al., 2016a; Monti et al., 2017) 개발 메쉬 합성곱 신경망의 기하학적 딥러닝에 대한 초기 작업은 분석 문제, 특히 변형 가능한 형상 대응 문제를 해결하기 위해 수행된다.
3D 형상 합성을 위한 최초의 기하학적 오토인코더 구조는 Litany et al. (2018)와 Ranjan et al. (2018)에 의해 독립적으로 제안되었다. 이 구조들에서, (신체, 얼굴, 또는 손의) 표준 메시가 알려진 것으로 가정되었고, 합성 태스크는 노드들의 3D 좌표(미분 기하학의 전문 용어를 사용하여 표면의 임베딩)를 회귀시키는 것으로 구성되었다. Kulon et al. (2020)는 이미지 CNN 기반 인코더와 기하학적 디코더를 사용하여 3D 손 포즈 추정을 위한 185185185
Examples of complex 3D hand poses reconstructed from 2D images in the wild (Kulon et al., 2020).a 하이브리드 파이프라인을 보여주었다. 영국 스타트업 기업 아리엘 AI와 협업해 개발해 CVPR 2020에 선보인 이 시스템의 데모는 휴대전화로 입력되는 비디오에서 완전히 관절이 달린 손으로 실감나는 바디 아바타를 실시간보다 빠르게 만들 수 있도록 했다. 애리얼 AI는 2020년 스냅에 인수됐고, 기술 작성 당시 스냅의 증강현실 제품에 활용된다.
7 Historic Perspective
“대칭은 그 의미를 정의할 수 있는 만큼 넓거나 좁다는 것은 시대의 인간이 질서, 아름다움, 완벽함을 이해하고 창조하려고 노력한 하나의 아이디어이다.” 186186186
The tetrahedron, cube, octahedron, dodecahedron, and icosahedron are called Platonic solids. 이 다소 시적인 대칭의 정의는 위대한 수학자 헤르만 Weyl (2015), 그의 Schwanengesang이 프린스턴 고등 연구소의 은퇴 전야에 쓴 시에서 주어진다. 바일은 수메르의 대칭 디자인에서 원은 회전 대칭으로 인해 완벽하다고 믿었던 피타고라스인들에 이르기까지 과학과 예술에서 특별한 장소 대칭이 차지해 온 흔적을 추적한다. 플라톤은 오늘날 그의 이름이 새겨진 다섯 개의 정다면체를 매우 근본적인 것으로 간주하여 물질 세계를 형성하는 기본 구성 요소가 되어야 한다. 그러나 플라톤은 문자 그대로 '동일한 척도'로 번역되는 ςυμμετρία라는 용어를 만든 것으로 인정받지만, 그는 예술에서의 비례의 아름다움과 음악의 조화를 전달하기 위해 막연하게만 사용했다. 천문학자이자 수학자인 요하네스 케플러는 물 결정의 대칭 모양에 대한 최초의 엄격한 분석을 시도했다. 그의 논문('Six-Cornered Snowflake'에서, 187187187 Fully titled Strena, Seu De Nive Sexangula (’New Year’s gift, or on the Six-Cornered Snowflake’) was, as suggested by the title, a small booklet sent by Kepler in 1611 as a Christmas gift to his patron and friend Johannes Matthäus Wackher von Wackenfels. 은 눈송이의 6중 이면체 구조를 입자의 육각형 패킹에 기인시켰는데, 이는 물질이 어떻게 형성되는지에 대한 명확한 이해 이전에 존재했지만 여전히 결정학 (Ball, 2011)의 기초로서 오늘날 유지되고 있다.
Symmetry in Mathematics and Physics
현대 수학에서 대칭은 집단 이론의 언어로 거의 단원적으로 표현된다. 이 이론의 기원은 보통 이 용어를 만들어 1830년대에 다항 방정식의 해결 가능성을 연구하는 데 사용한 에바리스테 갈루아에 기인한다. 그룹 이론과 관련된 두 가지 다른 이름은 소푸스 리와 펠릭스 클라인의 이름으로, (Tobies, 2019) 기간 동안 만나서 알차게 함께 일했다. 전자는 오늘날 그의 이름을 가진 연속 대칭 이론을 발전시킬 것이고, 후자는 그룹 이론을 우리가 이 텍스트의 시작 부분에서 언급했던 그의 에를랑겐 프로그램에서 기하학의 조직화 원리로 선언할 것이다. 리만 기하학은 클라인의 통일된 기하학 그림에서 명시적으로 제외되었고, 통합되기까지 50년이 더 걸렸는데, 이는 1920년대 엘리 카르탄의 작품 덕분이다.
괴팅겐에 있는 클라인의 동료 에미 뇌터는 물리계의 작용의 미분 가능한 모든 대칭이 상응하는 보존 법칙 (Noether, 1918)를 가지고 있음을 증명했다. 물리학에서 그것은 놀라운 결과였다: 사전에 에너지의 보존과 같은 근본적인 법칙을 발견하기 위해 세심한 실험적 관찰이 필요했고, 그때도 그것은 어디서도 나오지 않는 경험적 결과였다. 노벨상 수상자 프랭크 윌체크(Frank Wilczek)의 말처럼 “20세기와 21세기의 물리학을 이끄는 별”인 노더의 정리는 에너지의 보존이 시간의 병진 대칭에서 나온다는 것을 보여주었는데, 이는 실험의 결과가 오늘이나 내일 실시되느냐에 달려서는 안 된다는 다소 직관적인 생각이었다.
전하 보존과 관련된 대칭성 188188188Weyl first conjectured (incorrectly) in 1919 that invariance under the change of scale or “gauge” was a local symmetry of electromagnetism. The term gauge, or Eich in German, was chosen by analogy to the various track gauges of railroads. After the development of quantum mechanics, Weyl (1929) modified the gauge choice by replacing the scale factor with a change of wave phase. See Straumann (1996). 은 글로벌 gauge invariance of the electromagnetic field, first appearing in Maxwell's formulation of electrodynamics (Maxwell, 1865); 그러나, 그 중요성은 처음에 눈에 띄지 않았다. 대칭성에 대해 그렇게 디티람적으로 쓴 동일한 헤르만 웨일은 20세기 초 물리학에서 게이지 불변성의 개념을 처음 도입한 사람으로 전자기학이 derived이 될 수 있는 원리로서의 역할을 강조한다. Yang and Mills (1954)에 의해 개발된 일반적인 형태의 이 기본 원리는 전자기학의 양자역학적 거동과 약력과 강력을 설명하는 통일된 프레임워크를 제공하는 데 성공하기까지 수십 년이 걸렸고, 마침내 중력을 제외한 자연의 모든 기본 힘을 포착하는 표준 모델에서 정점을 찍었다. 따라서 우리는 또 다른 노벨상을 받은 물리학자 Philip Anderson (1972)와 함께 “물리학이 대칭의 연구라고 말하는 것은 단지 그 경우를 약간 과장하는 것”이라고 결론지을 수 있다.
Early Use of Symmetry in Machine Learning
기계 학습과 패턴 인식 및 컴퓨터 비전에 대한 응용에서 대칭의 중요성은 오랫동안 인식되어 왔다. 패턴 인식을 위한 등분산 특징 검출기 설계에 대한 초기 작업은 Amari (1978), 189189189Shun’ichi Amari is credited as the creator of the field of information geometry that applies Riemannian geometry models to probability. The main object studied by information geometry is a statistical manifold, where each point corresponds to a probability distribution. Kanatani (2012), Lenz (1990)에 의해 수행되었다. 신경망 문헌에서 Minsky and Papert (2017)에 의한 퍼셉트론에 대한 유명한 그룹 불변 정리는 불변물을 학습하는 (단일 계층) 퍼셉트론의 능력에 근본적인 제한을 둔다. 이는 다층 아키텍처 (Sejnowski et al., 1986; Shawe-Taylor, 1989, 1993)를 연구하는 주된 동기 중 하나였으며, 이는 궁극적으로 딥러닝으로 이어졌다.
신경망 커뮤니티에서 Neocognitron (Fukushima and Miyake, 1982)는 "pattern recognition unaffected by shift in position"에 대한 신경망에서의 shift invariance의 첫 번째 구현으로 인정된다. 그의 해결책은 신경과학자인 데이비드 휴벨과 토스텐 위젤이 20년 전 (Hubel and Wiesel, 1959)에 의해 시각 피질에서 발견한 수용 필드에서 영감을 끌어내는 국소 연결성을 가진 계층적 신경망의 형태로 나왔다. 190190190This classical work was recognised by the Nobel Prize in Medicine in 1981, which Hubel and Wiesel shared with Roger Sperry. 이러한 아이디어는 Yann LeCun과 공저자 (LeCun et al., 1998)의 중요한 작업에서 Convolutional Neural Networks에서 절정에 달했다. 불변 및 등분산 신경망에 대한 표현 이론적 관점을 취한 첫 번째 작업은 불행히도 거의 인용되지 않은 Wood and Shawe-Taylor (1996)에 의해 수행되었다. 이러한 사상의 보다 최근의 화신에는 Makadia et al. (2007); Esteves et al. (2020)의 작품과 본문 (Cohen and Welling, 2016)의 저자 중 한 명이 있다.
Graph Neural Networks
그래프 신경망의 개념이 언제 등장하기 시작했는지 정확히 짚어내기는 어렵다. 부분적으로는 GNN이 2010년대 후반에만 실용화된 이후, 부분적으로는 이 분야가 여러 연구 분야의 합류에서 나왔기 때문에 초기 작업의 대부분이 1급 시민으로 그래프를 배치하지 않았기 때문이다. 즉, 그래프 신경망의 초기 형태는 적어도 1990년대로 거슬러 올라갈 수 있는데, 예를 들어 알레산드로 스페르두티의 라벨링 RAAM (Sperduti, 1994), Goller and Kuchler (1996), 데이터 구조의 적응적 처리 (Sperduti and Starita, 1997; Frasconi et al., 1998) 등이 있다. 이러한 작업은 주로 "구조"(종종 나무 또는 지시된 비순환 그래프)를 통해 작동하는 것과 관련이 있었지만 아키텍처에 보존된 많은 불변은 오늘날 더 일반적으로 사용되는 GNN을 연상시킨다.
일반 그래프 구조의 처리에 대한 첫 번째 적절한 처리(및 용어 “graph neural network”)는 21세기의 전환 후에 발생했다. 191191191Concurrently, Alessio Micheli had proposed the neural network for graphs (NN4G) model, which focused on a feedforward rather than recurrent paradigm (Micheli, 2009).Università degli Studi di Siena(이탈리아)의 인공지능 연구실 내에서 Marco Gori와 Franco Scarselli가 이끄는 논문은 최초의 “GNN” (Gori et al., 2005; Scarselli et al., 2008)를 제안하였다. 그들은 순환 메커니즘에 의존했고, 수축 매핑을 지정하기 위해 신경망 매개변수가 필요했으며, 따라서 고정된 점을 검색하여 노드 표현을 계산했으며, 이는 그 자체로 역전파 (Almeida, 1990; Pineda, 1988)의 특별한 형태를 필요로 했으며 노드 특징에 전혀 의존하지 않았다. 위의 모든 문제는 Li et al. (2015)의 Gated GNN(GGNN) 모델에 의해 수정되었다. GGNN은 GNN 모델에 게이팅 메커니즘 (Cho et al., 2014) 및 시간을 통한 역전파와 같은 현대 RNN의 많은 이점을 가져왔으며 오늘날에도 인기를 유지하고 있다.
Computational chemistry
또한 GNN에 대한 독립적이고 동시적인 개발 라인을 주목하는 것은 매우 중요하다: 분자는 화학 결합(엣지)에 의해 연결된 원자(노드)의 그래프로 가장 자연스럽게 표현되는 계산 화학의 필요에 의해 전적으로 주도된 것이다. 이것은 1990년대에 기계 학습에 존재하게 된 이러한 그래프 구조를 통해 직접 작동하는 분자 특성 예측을 위한 계산 기술을 초대했는데, 여기에는 Kireev (1995)의 ChemNet 모델과 Baskin et al. (1997)의 작업이 포함된다. 놀랍게도, Merkwirth and Lengauer (2005)의 “분자 그래프 네트워크”는 2005년 초에 에지 유형 조건 가중치 또는 전역 풀링과 같은 현대 GNN에서 일반적으로 발견되는 많은 요소를 명시적으로 제안했다. 화학적 동기는 2010년대에 GNN 개발을 계속 추진했으며, 두 가지 중요한 GNN 발전은 분자 핑거프린팅 (Duvenaud et al., 2015)를 개선하고 소분자로부터 양자화학적 특성 (Gilmer et al., 2017)를 예측하는 데 중점을 두었다. 이 텍스트를 작성할 때 분자 특성 예측은 GNN의 가장 성공적인 적용 중 하나이며, 새로운 항생제 (Stokes et al., 2020)의 가상 스크리닝에 영향을 미친다.
Node embeddings
그래프에 대한 딥 러닝의 초기 성공 사례 중 일부는 그래프 구조에 기초하여 지도되지 않은 방식으로 노드의 표현을 학습하는 것을 포함한다. 그들의 구조적 영감을 감안할 때, 이 방향은 또한 그래프 표현 학습과 네트워크 과학 커뮤니티 사이의 가장 직접적인 연결 중 하나를 제공한다. 이 공간의 초기 키 접근 방식은 random walk 기반 임베딩: 노드가 짧은 랜덤 워크에서 동시 발생 하는 경우 노드를 더 가깝게 만드는 방식으로 노드 표현을 학습 합니다. 이 공간에서의 대표적인 방법으로는 DeepWalk (Perozzi et al., 2014), node2vec (Grover and Leskovec, 2016) 및 LINE (Tang et al., 2015) 등이 있으며, 이들은 모두 순전히 자기 지도 방식이다. Planetoid (Yang et al., 2016)는 사용 가능한 경우 감독 레이블 정보를 통합한 첫 번째 공간이었습니다.
Unifying random walk objectives with GNN encoders192192192Recently, a theoretical framework was developed by Srinivasan and Ribeiro (2019) in which the equivalence of structural and positional representations was demonstrated. Additionally, Qiu et al. (2018) have demonstrated that all random-walk based embedding techniques are equivalent to an appropriately-posed matrix factorisation task.은 Variational Graph Autoencoder (VGAE, Kipf and Welling (2016b)), embedding propagation (García-Durán and Niepert, 2017), and unsupervised variants of GraphSAGE (Hamilton et al., 2017)를 포함한 대표적인 접근법으로 여러 차례 시도되었다. 그러나 이것은 혼합된 결과를 얻었고, 이웃 노드 표현을 함께 밀어내는 것이 이미 GNN의 귀납적 편향의 핵심 부분이라는 것이 곧 발견되었다. 실제로, untrained GNN은 노드 기능이 사용 가능한 설정에서 DeepWalk와 경쟁적인 성능을 이미 보여주고 있는 것으로 나타났다. 이것은 무작위 보행 목표를 GNN과 결합하고 contrastive 접근 방식을 상호 정보 최대화에 영감을 받아 이미지 도메인에서 성공적인 방법에 정렬하는 것에서 벗어나는 방향을 시작했다. 이러한 방향의 두드러진 예로는 Deep Graph Informax(DGI, Veličković et al. (2019)), GRACE (Zhu et al., 2020), BERT-like objectives (Hu et al., 2020) 및 BGRL (Thakoor et al., 2021) 등이 있다.
Probabilistic graphical models
그래프 신경망은 또한 동시에 probabilistic graphical models (PGMs, Wainwright and Jordan (2008))의 계산을 임베딩함으로써 다시 나타났다. PGM은 그래픽 데이터를 처리하는 강력한 도구이며, 그래프의 에지에 대한 확률적 관점에서 그 효용성이 발생한다. 즉, 노드는 랜덤 변수로 처리되는 반면, 그래프 구조는 조건부 독립성 가정을 인코딩하여 조인트 분포로부터 계산 및 샘플링을 상당히 단순화할 수 있다. 실제로, PGM들에 대한 학습 및 추론을 (정확하게 또는 대략적으로) 지원하기 위한 많은 알고리즘들은 변분 평균-장 추론 및 루피 신념 전파 (Yedidia et al., 2001; Murphy et al., 2013)를 포함하는 예시들과 함께, 그들의 에지들 위의 전달 메시지들의 형태들 (Pearl, 2014)에 의존한다.
PGM과 메시지 전달 사이의 이러한 연결은 구조 2vec (Dai et al., 2016)의 저자에 의해 초기 이론적 링크가 확립된 GNN 아키텍처로 후속적으로 개발되었다. 즉, 그래프 표현 학습 설정을 (입력 특징 및 잠재 표현에 대응하는 노드의) 마르코프 랜덤 필드로 상정함으로써, 저자들은 평균-필드 추론 및 루피 믿음 전파 모두의 계산을 오늘날 일반적으로 사용되는 GNN과 다르지 않은 모델에 직접 정렬한다.
GNN의 잠재 표현을 PGM에 의해 유지되는 확률 분포와 관련시킬 수 있는 핵심 "트릭"은 Hilbert-space embeddings of distributions (Smola et al., 2007)의 사용이었다. 특징들
The Weisfeiler-Lehman formalism
그래프 신경망의 부활은 특히 표현력 측면에서 근본적인 한계를 이해하려는 추진으로 이어졌다. GNN이 그래프 구조 데이터의 강력한 모델링 도구임이 분명해지고 있지만 그래프에 지정된 any 작업을 완벽하게 해결할 수 없다는 것도 분명했다. 193193193Due to their permutation invariance, GNNs will attach identical representations to two isomorphic graphs, so this case is trivially solved.A canonical illustrative example of this is deciding graph isomorphism: is our GNN able to attach different representation to two given non-isomorphic graph? 이것은 두 가지 이유로 유용한 틀이다. GNN이 이것을 할 수 없다면, 이 두 그래프의 구별을 요구하는 어떤 작업에도 희망이 없을 것이다. 또한, 그래프 동형성을 결정하는 것이 일반적으로 모든 GNN 계산이 상주하는 복잡성 클래스인 P194194194The best currently known algorithm for deciding graph isomorphism is due to Babai and Luks (1983), though a recent (not fully reviewed) proposal by Babai (2016) implies a quasi-polynomial time solution.에 있는지 여부는 현재 알려져 있지 않다.
GNNs를 그래프 동형성에 바인딩하는 주요 프레임워크는 Weisfeiler-Lehman (WL) 그래프 동형 테스트 (Weisfeiler and Leman, 1968)이다. 이 테스트는 그래프의 가장자리를 따라 노드 특징을 반복적으로 전달하여 그래프 표현을 생성한 다음, randomly 해싱 이웃 간의 합을 생성한다. randomly-initialised convolutional GNNs는 명백하며, 일찍이 관찰되었다: 예를 들어, Kipf and Welling (2016a)의 GCN 모델 내에서. 이 연결 외에도 WL 반복은 이전에 graph kernels by Shervashidze et al. (2011)의 도메인에 도입되었으며 전체 그래프 표현의 비지도 학습을 위한 강력한 기준선을 여전히 제시한다.
195195195
One simple example: the WL test cannot distinguish a 6-cycle from two triangles. WL 테스트는 개념적으로 단순하고 구별할 수 없는 비동형 그래프의 간단한 예가 많지만 표현력은 궁극적으로 GNN과 강하게 연결되어 있다. Morris et al. (2019) 및 Xu et al. (2018)에 의한 분석에서는 둘 다 놀라운 결론에 도달했다: any GNN은 섹션 5.3에서 설명한 세 가지 맛 중 하나에 따라 WL 테스트보다 더 강력할 수 없다.
이러한 수준의 표현력에 정확히 도달하기 위해서는 GNN 갱신 규칙에 일정한 제약이 존재해야 한다. Xu et al. (2018)는 이산 특징 도메인에서 GNN이 사용하는 집성 함수는 반드시 injective, with summation is a key representative196196196196Xu et al. (2018)는 이 프레임워크 하에서 최대 표현 GNN의 간단하지만 강력한 예인 GIN(Graph Isomorphism Network)을 제안한다. 또한 제안하는 합성곱 GNN 풍미에서도 표현이 가능하다.
마지막으로 이러한 결과가 continuous 노드 특징 공간에 일반화되지 않는다는 점에 주목할 필요가 있다. 실제로, Borsuk-Ulam 정리를 사용하여 (Borsuk, 1933), Corso et al. (2020)는 실수 노드 특징을 가정할 때, 주입식 집성 함수를 얻기 위해서는 multiple 집성기(구체적으로, degree의 197197197One example of such aggregators are the moments of the multiset of neighbours.이 필요함을 증명하였다. 그들의 발견은 경험적으로 강력하고 안정적인 다중 응집기 GNN을 제안하는 Principal Neighbourhood Aggregation(PNA) 아키텍처를 주도했다.
Higher-order methods
이전 단락의 결과는 GNN의 실용적인 유용성과 모순되지 않는다. 실제로, 많은 실제 응용 프로그램에서 입력 기능은 위의 제한 사항에도 불구하고 그래프 구조에 대한 유용한 판별 계산을 지원하기 위해 충분히 rich이다.
그러나 한 가지 핵심 결과는 GNN이 그래프 내에서 일부 초보적인 structures을 탐지하는 데 상대적으로 매우 약하다는 것이다. WL 테스트의 특정 제한 사항 또는 실패 사례에 따라 여러 작업에서 stronger provably WL 테스트보다 더 강력하며, 따라서 이러한 구조적 검출을 필요로 하는 작업에 유용할 가능성이 있다199199199One prominent example is computational chemistry, wherein a molecule’s chemical function can be strongly influenced by the presence of aromatic rings in its molecular graph.
아마도 더 표현력 있는 GNN을 찾기 위한 가장 직접적인 장소는 WL 테스트 그 자체일 것이다. 실제로, 원래 WL 테스트의 강도는 WL 테스트의 hierarchy을 고려함으로써 향상될 수 있으며, 따라서
동시에, Maron et al. (2018, 2019)는 노드의
표현이 계산되는 도메인을 일반화하는 것 외에도 1-WL의 특정 실패 사례를 분석하고 GNN inputs을 확장하여 이러한 사례를 구별하는 데 도움이 되었다. 하나의 일반적인 예는 identifying features을 노드들에 부착하는 것인데, 이는 구조 검출을 도울 수 있다201201201201예를 들어, 노드가 자신의 식별자
보다 광범위하게, structural information within the message passing process, by modulating the message function or the graph of the computation is carried over202202202In the computational chemistry domain, it is often assumed that molecular function is driven by substructures (the functional groups), which have directly inspired the modelling of molecules at a motif level. For references, consider Jin et al. (2018, 2020); Fey et al. (2020).. 여기서 몇 가지 흥미로운 작업 라인은 샘플링 anchor 노드 세트 (You et al., 2019), Laplacian eigenvectors (Stachenfeld et al., 2020; Beaini et al., 2020; Dwivedi and Bresson, 2020), 또는 topological data analysis, for positional embeddings (Bouritsas et al., 2020) 또는 driving message passing (Bodnar et al., 2021)를 기반으로 집계하는 작업을 포함한다.
Signal processing and Harmonic analysis
합성곱 신경망의 초기 성공 이후 연구자들은 그들의 효율성을 설명하는 이론적 틀을 제공하기 위해 조화 분석, 이미지 처리 및 계산 신경 과학의 도구에 의존했다.
Signal Processing on Graph and Meshes
그래프 신경망의 또 다른 중요한 클래스, 종종 spectral은 Graph Fourier transform의 개념을 사용하여 이 텍스트의 저자 중 한 명의 작업에서 등장했다. 이 구성의 뿌리는 신호 처리 및 컴퓨터 하모닉 분석 커뮤니티에 있으며, 여기서 비 유클리드 신호를 다루는 것은 2000년대 후반과 2010년대 초에 두드러졌다. Pierre Vandergheynst (Shuman et al., 2013)와 José Moura (Sandryhaila and Moura, 2013) 그룹의 영향력 있는 논문들은 "Graph Signal Processing"(GSP)의 개념과 그래프 인접성과 라플라시안 행렬의 고유벡터를 기반으로 한 푸리에 변환의 일반화를 대중화했다. Defferrard et al. (2016)와 Kipf and Welling (2016a)에 의한 스펙트럼 필터에 의존하는 그래프 합성곱 신경망은 해당 분야에서 가장 많이 인용되는 분야 중 하나이며 신용될 가능성이 높다. 최근 몇 년 동안 그래프에 대한 기계 학습에 대한 관심을 다시 불러일으키고 있다.
컴퓨터 그래픽 및 기하학 처리 분야에서 비유클리드 조화 분석은 그래프 신호 처리보다 최소 10년 앞서 있다는 점에 주목할 필요가 있다. 우리는 Taubin et al. (1996)의 작업으로 매니폴드와 메쉬에 대한 스펙트럼 필터를 추적할 수 있다. 이러한 방법은 스펙트럼 기하학 압축에 대한 Karni and Gotsman (2000)의 영향력 있는 논문과 라플라시안 고유벡터를 비유클리드 푸리에 기반으로 사용하는 Lévy (2006)의 영향력 있는 논문에 이어 2000년대에 주류를 이루었다. 스펙트럼 방법은 다양한 응용 분야에 사용되어 왔으며, 그 중 가장 두드러진 것은 형상 기술자 (Sun et al., 2009) 및 기능 맵 (Ovsjanikov et al., 2012)의 구성이다; 이러한 방법은 여전히 쓰기 시에 컴퓨터 그래픽에서 광범위하게 사용된다.
Computer Graphics and Geometry Processing
고유 메트릭 불변량에 기초한 형상 분석을 위한 모델은 컴퓨터 그래픽 및 기하학 처리 분야 (Elad and Kimmel, 2003; Mémoli and Sapiro, 2005; Bronstein et al., 2006)의 다양한 저자에 의해 소개되었으며, 그의 이전 책 (Bronstein et al., 2008)에서 저자 중 한 명이 심도 있게 논의했다. 고유 대칭의 개념은 동일한 필드 Raviv et al. (2007); Ovsjanikov et al. (2008)에서도 탐구되었다. 메시에서 딥 러닝을 위한 첫 번째 아키텍처인 지오데식 CNN은 텍스트 (Masci et al., 2015)의 저자 중 한 명으로 구성된 팀에서 개발되었다. 이 모델은 지오데식 방사형 패치에 적용된 공유 가중치를 가진 로컬 필터를 사용했다. 그것은 (Cohen et al., 2019) 텍스트의 다른 저자에 의해 나중에 개발된 게이지-equivariant CNN의 특정 설정이었다. 동일한 팀에서 페데리코 Monti et al. (2017)가 제안한 학습 가능한 집계 연산인 MoNet을 사용한 지오데식 CNN의 일반화는 메쉬의 로컬 구조적 특징에 대한 주의와 같은 메커니즘을 사용했으며, 이는 일반 그래프에서도 작동하는 것으로 입증되었다. 기술적으로 MoNet의 특정 인스턴스로 간주될 수 있는 그래프 주의 네트워크(GAT)는 이 텍스트 (Veličković et al., 2018)의 다른 저자에 의해 도입되었다. GAT는 이전 작업의 순전히 구조에서 파생된 관련성을 탈피하여 노드 특징 정보를 통합하기 위해 MoNet의 주의 메커니즘을 일반화한다. 현재 사용 중인 가장 인기 있는 GNN 아키텍처 중 하나입니다.
컴퓨터 그래픽의 맥락에서, 세트 (Zaheer et al., 2017)에 대한 학습 아이디어가 3D 포인트 클라우드의 분석을 위해 PointNet (Qi et al., 2017)라는 이름으로 스탠포드의 Leo Guibas 그룹에서 동시에 개발되었다는 점도 언급할 가치가 있다. 이 아키텍처는 동적 그래프 CNN(DGCNN, Wang et al. (2019b))이라는 이 텍스트의 저자에 의한 작업을 포함하여 여러 후속 작업으로 이어졌다. DGCNN은 노드들 간의 정보 교환을 허용하기 위해 포인트 클라우드의 로컬 구조를 캡처하기 위해 최근접-이웃 그래프를 사용했는데, 이 아키텍처의 주요 특징은 그래프가 다운스트림 태스크와 관련하여 신경망의 계층들 사이에서 즉시 구성되고 업데이트된다는 것이다. 이 후자의 속성은 DGCNN을 ‘잠재 그래프 학습’의 첫 번째 화신 중 하나로 만들었고, 그 결과 상당한 후속 조치가 있었다. DGCNN의
제공된 그래프가 없는 그래프에 대한 학습에서 매우 인기 있는 또 다른 방향은 complete 그래프를 통해 GNN 스타일 계산을 수행하는 데 의존하여 네트워크가 연결성을 활용하는 고유한 방법을 추론합니다. 이에 대한 필요성은 특히 문장의 다양한 단어들이 매우 사소하고 비순차적인 방식으로 상호작용하는 자연어 처리에서 발생한다. 단어의 완전한 그래프를 통해 작동하면 트랜스포머 모델 (Vaswani et al., 2017)의 첫 번째 화신이 발생했으며, 이는 신경망 기계 번역에서 최신 기술로 리커런트 모델과 컨벌루션 모델을 모두 삭제하고 NLP와 다른 필드 사이의 경계를 초월하여 관련 작업의 눈사태를 시작했다. 완전 연결 GNN 계산은 시뮬레이션 (Battaglia et al., 2016), 추론 (Santoro et al., 2017), 다중 에이전트 (Hoshen, 2017) 애플리케이션에서도 동시에 등장했으며 노드의 수가 합리적으로 적을 때 여전히 인기 있는 선택을 나타낸다.
Algorithmic reasoning
이 섹션에서 제기한 대부분의 논의에 대해 spatially 유도 기하학의 예를 제공했으며, 이는 차례로 기본 도메인과 그 불변 및 대칭을 형성한다. 그러나 computational 설정에서도 불변 및 대칭의 다양한 예가 발생합니다. 기하학적 딥 러닝의 많은 공통 설정에 대한 한 가지 중요한 차이점은 링크가 더 이상 유사성, 근접성 또는 관계의 유형에 대해 인코딩할 필요가 없다는 것이다.
대신, 신경망의 계산은 알고리즘의 제어 흐름에 의해 유도된 추가 인바리언스들과 함께 algorithm (Cormen et al., 2009), 204204204204예를 들어, Bellman-Ford pathfinding algorithm (Bellman, 1958)의 하나의 인바리언트는
즉, algorithmic reasoning (Cappart et al., 2021, Section 3.3.)는 알고리즘 불변량을 적절히 보존하는 신경망 아키텍처를 생산하고자 한다. 이 영역은 범용 신경 컴퓨터, 예를 들어 neural Turing machine (Graves et al., 2014) 및 differentiable neural computer (Graves et al., 2016)의 구성을 조사했다. 이러한 아키텍처는 일반적인 계산의 모든 특징을 가지고 있지만 여러 구성 요소를 한 번에 도입하여 최적화하기 어려운 경우가 많으며 실제로는 Santoro et al. (2017, 2018)에서 제안한 것과 같은 단순한 관계 추론기에 의해 거의 항상 성능이 우수하다.
복잡한 후처리 조건을 모델링하는 것이 어렵기 때문에, (Zaremba and Sutskever, 2014)를 실행하기 위한 학습을 위한 귀납적 편향에 대한 많은 연구는 원시 알고리즘(예: 간단한 산술)에 초점을 맞추었다. 이 공간의 두드러진 예로는 neural GPU (Kaiser and Sutskever, 2015), neural RAM (Kurach et al., 2015), neural programmer-interpreters (Reed and De Freitas, 2015), neural arithmetic-logic units
superlinear complexity의 조합 알고리즘을 구현하는 것은 GNN 아키텍처의 급속한 발전과 함께 가능했다. algorithmic alignment framework pioneered by Xu et al. (2019)는 이론적으로 GNNs align with dynamic programming (Bellman, 1966)는 대부분의 알고리즘이 표현될 수 있는 언어임을 증명하였다. 이 텍스트의 저자 중 한 명이 실제 (Veličković et al., 2019)에서 알고리즘 불변과 일치하는 GNN을 설계하고 훈련하는 것이 가능하다는 것을 동시에 경험적으로 보여주었다. 이후 정렬은 iterative algorithms (Tang et al., 2020), linearithmic algorithms (Freivalds et al., 2019), data structures (Veličković et al., 2020) 및 persistent memory (Strathmann et al., 2021) 이러한 모델들은 또한 implicit planners (Deac et al., 2020) reinforcement learning 알고리즘들의 공간으로 침입하는 실용화를 보았다.
동시에, physics simulations (Sanchez-Gonzalez et al., 2020; Pfaff et al., 2020)에 대해 GNNs를 사용하는 데 상당한 진전이 있었다. 이 방향은 일반화 GNN의 설계에 대해 동일한 권장 사항을 많이 산출했다. 이러한 대응은 예상되며, 알고리즘이 이산 시간 시뮬레이션으로 표현될 수 있고 시뮬레이션이 일반적으로 단계적 알고리즘으로 구현된다는 점을 감안할 때 두 방향 모두 유사한 종류의 불변량을 보존해야 한다.
알고리즘 추론의 연구와 밀접하게 결합된 것은 extrapolation이다. 이것은 대부분의 성공 사례가 in-distribution; 즉 훈련 데이터에서 발견된 패턴이 테스트 데이터에서 발견된 패턴을 적절하게 예측할 때 얻어진다는 점을 감안할 때 신경망에 악명 높은 고통 지점이다. 그러나 알고리즘 불변은 예를 들어 입력의 크기 또는 생성 분포에 관계없이 보존되어야 하며, 이는 훈련 세트가 실제로 마주치는 가능한 시나리오를 포함하지 않을 가능성이 있음을 의미한다. Xu et al. (2020b)는 정류기 활성화에 의해 지원되는 외삽 GNN의 요구 사항에 대한 기하학적 인수를 제안했다: 구성 요소 및 특성은 구성 모듈(예: 메시지 함수)이 linear 목표 함수만 학습하도록 설계되어야 한다. Bevilacqua et al. (2021)는 causal reasoning, yielding environment-invariant representations of graph.
Geometric Deep Learning
우리의 마지막 역사적 발언은 바로 이 텍스트의 이름과 관련이 있다. 기하학적 딥 러닝(Geometric Deep Learning)이라는 용어는 2015년 그의 ERC grant에서 이 텍스트의 저자 중 한 사람에 의해 처음 도입되었으며 명칭 IEEE 신호 처리 매거진 논문 (Bronstein et al., 2017)에서 대중화되었다. 이 논문은 비록 “약간의 주의를 기울이지만” “새로운 분야가 탄생하는” 징후를 선언했다. 그래프 신경망의 최근 인기, 광범위한 기계 학습 응용 분야에서 불변성과 불분산의 아이디어의 사용 증가, 그리고 우리가 이 글을 쓴 바로 그 사실을 고려할 때, 아마도 이 예언이 적어도 부분적으로 충족되었다고 생각하는 것이 옳을 것이다. “4G: 그리드, 그래프, 그룹 및 게이지”라는 이름은 맥스 웰링이 기하학 딥 러닝에 대한 ELLIS 프로그램을 위해 만든 것으로, 텍스트의 두 명의 저자가 공동 지시했다. 분명히, 마지막 'G'는 다소 스트레치인데, 그 이유는 기본 구조가 게이지가 아니라 다양체와 다발이기 때문이다. 이 텍스트에서 우리는 미터법 불변량과 다양체의 고유 대칭과 관련하여 또 다른 ‘G’인 측지학을 추가했다.
Acknowledgements
이 텍스트는 불변과 대칭이라는 기하학적 렌즈를 통해 딥 러닝 아키텍처에서 수십 년의 기존 지식을 요약하고 종합하려는 겸손한 시도를 나타낸다. 우리의 관점이 새로운 사람들과 실무자들이 현장을 탐색하고 연구자들이 우리의 청사진의 예로서 새로운 아키텍처를 합성하는 것을 더 쉽게 만들기를 바랍니다. 어떤 면에서, 우리는 “all you need to build the architecture are all you need of the architecture which are all you need of the architecture that are all you need to build the architecture that are all you need of the architecture that are all you need to build the architecture that is all you need to build the architecture that a inspired by word on Vaswani et al. (2017)”를 제시했기를 희망한다.
본문의 대부분은 2020년 말과 2021년 초에 작성되었다. 종종 일어나는 일처럼, 우리는 그림 전체가 말이 되는지에 대해 수천 개의 의구심을 품었고, 동료들이 제공한 기회를 사용하여 케임브리지에서의 페타르의 강연(피에트로 리에의 예의)과 옥스포드에서의 마이클의 강연(샤오웬 동의 예의)과 임페리얼 칼리지에서의 마이클의 강연(마이클 휴스와 다니엘 루커트의 주최)에서 우리의 "무대 공포증"을 깨고 우리 작품의 초기 버전을 발표하는 데 사용했다. 페타는 또한 에를랑겐 프로그램의 발상지인 프리드리히-알렉산더-유니버시토트 에를랑겐-뉘른베르크에서 우리의 작업을 발표할 수 있었다. 안드레아스 메이어의 친절한 초청으로. 우리가 이 회담에 대해 받은 피드백은 우리의 기분을 좋게 하고 작업을 더 다듬는 데 매우 귀중한 것이었다. 마지막으로, 그러나 확실히 중요한 것은, 우리의 작업이 마이클이 전달하는 기조 강연에 소개될 ICLR 2021의 조직 위원회에 감사드립니다.
우리는 그러한 방대한 양의 연구를 조정하는 것이 4명의 전문지식에 의해 거의 가능하지 않다는 점에 유의해야 한다. 이에 따라, 우리는 우리의 텍스트가 진화할 때 우리의 텍스트의 측면을 신중하게 연구한 모든 연구자들에게 공을 돌리고, 우리에게 신중한 논평과 참조를 제공했습니다: 요슈아 벵히오, 찰스 블런델, 안드리아 데악, 파비안 푸치스, 프란체스코 디 지오반니, 마르코 고리, 라야 하델, 윌 해밀턴, 막심 코릴로프, 크리스티안 머크워트, 라즈반 파스카누, 브루노 리베이루, 안나 스카이페, 위르겐 슈미후베르, 마르윈 세글러, 코렌틴 타레크, 응겐 벤스, 피터 윈스버거 및 데이비드 웡. 그들의 전문가적 피드백은 우리의 통일 노력을 확고히 하고 다양한 틈새 시장에 더 유용하게 만드는 데 매우 유용했다. 물론, 이 글의 어떤 부정행위도 우리만의 책임입니다. 현재 진행 중인 작업이며, 어떤 단계에서든 의견을 받을 수 있어 매우 기쁩니다. 오류나 누락이 발견되면 저희에게 연락하십시오.
References
- Aflalo and Kimmel (2013) Yonathan Aflalo and Ron Kimmel. Spectral multidimensional scaling. PNAS, 110(45):18052–18057, 2013.
- Aflalo et al. (2015) Yonathan Aflalo, Haim Brezis, and Ron Kimmel. On the optimality of shape and data representation in the spectral domain. SIAM J. Imaging Sciences, 8(2):1141–1160, 2015.
- Almeida (1990) Luis B Almeida. A learning rule for asynchronous perceptrons with feedback in a combinatorial environment. In Artificial neural networks: concept learning, pages 102–111. 1990.
- Alon and Yahav (2020) Uri Alon and Eran Yahav. On the bottleneck of graph neural networks and its practical implications. arXiv:2006.05205, 2020.
- Amari (1978) Sl Amari. Feature spaces which admit and detect invariant signal transformations. In Joint Conference on Pattern Recognition, 1978.
- Anderson et al. (2019) Brandon Anderson, Truong-Son Hy, and Risi Kondor. Cormorant: Covariant molecular neural networks. arXiv:1906.04015, 2019.
- Anderson (1972) Philip W Anderson. More is different. Science, 177(4047):393–396, 1972.
- Andreux et al. (2014) Mathieu Andreux, Emanuele Rodola, Mathieu Aubry, and Daniel Cremers. Anisotropic Laplace-Beltrami operators for shape analysis. In ECCV, 2014.
- Arslan et al. (2018) Salim Arslan, Sofia Ira Ktena, Ben Glocker, and Daniel Rueckert. Graph saliency maps through spectral convolutional networks: Application to sex classification with brain connectivity. In Graphs in Biomedical Image Analysis and Integrating Medical Imaging and Non-Imaging Modalities, pages 3–13. 2018.
- Ba et al. (2016) Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv:1607.06450, 2016.
- Babai (2016) László Babai. Graph isomorphism in quasipolynomial time. In ACM Symposium on Theory of Computing, 2016.
- Babai and Luks (1983) László Babai and Eugene M Luks. Canonical labeling of graphs. In ACM Symposium on Theory of computing, 1983.
- Bach (2017) Francis Bach. Breaking the curse of dimensionality with convex neural networks. JMLR, 18(1):629–681, 2017.
- Badia et al. (2020) Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Zhaohan Daniel Guo, and Charles Blundell. Agent57: Outperforming the atari human benchmark. In ICML, 2020.
- Badrinarayanan et al. (2017) Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. Trans. PAMI, 39(12):2481–2495, 2017.
- Bahdanau et al. (2014) Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv:1409.0473, 2014.
- Ball (2011) Philip Ball. In retrospect: On the six-cornered snowflake. Nature, 480(7378):455–455, 2011.
- Bamieh (2018) Bassam Bamieh. Discovering transforms: A tutorial on circulant matrices, circular convolution, and the discrete fourier transform. arXiv:1805.05533, 2018.
- Banach (1922) Stefan Banach. Sur les opérations dans les ensembles abstraits et leur application aux équations intégrales. Fundamenta Mathematicae, 3(1):133–181, 1922.
- Bapst et al. (2020) Victor Bapst, Thomas Keck, A Grabska-Barwińska, Craig Donner, Ekin Dogus Cubuk, Samuel S Schoenholz, Annette Obika, Alexander WR Nelson, Trevor Back, Demis Hassabis, et al. Unveiling the predictive power of static structure in glassy systems. Nature Physics, 16(4):448–454, 2020.
- Barabási et al. (2011) Albert-László Barabási, Natali Gulbahce, and Joseph Loscalzo. Network medicine: a network-based approach to human disease. Nature Reviews Genetics, 12(1):56–68, 2011.
- Barron (1993) Andrew R Barron. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Trans. Information Theory, 39(3):930–945, 1993.
- Baskin et al. (1997) Igor I Baskin, Vladimir A Palyulin, and Nikolai S Zefirov. A neural device for searching direct correlations between structures and properties of chemical compounds. J. Chemical Information and Computer Sciences, 37(4):715–721, 1997.
- Battaglia et al. (2016) Peter W Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, and Koray Kavukcuoglu. Interaction networks for learning about objects, relations and physics. arXiv:1612.00222, 2016.
- Battaglia et al. (2018) Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv:1806.01261, 2018.
- Beaini et al. (2020) Dominique Beaini, Saro Passaro, Vincent Létourneau, William L Hamilton, Gabriele Corso, and Pietro Liò. Directional graph networks. arXiv:2010.02863, 2020.
- Bellman (1958) Richard Bellman. On a routing problem. Quarterly of Applied Mathematics, 16(1):87–90, 1958.
- Bellman (1966) Richard Bellman. Dynamic programming. Science, 153(3731):34–37, 1966.
- Bengio et al. (1994) Yoshua Bengio, Patrice Simard, and Paolo Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Trans. Neural Networks, 5(2):157–166, 1994.
- Berger (2012) Marcel Berger. A panoramic view of Riemannian geometry. Springer, 2012.
- Besson et al. (2020) Pierre Besson, Todd Parrish, Aggelos K Katsaggelos, and S Kathleen Bandt. Geometric deep learning on brain shape predicts sex and age. BioRxiv:177543, 2020.
- Bevilacqua et al. (2021) Beatrice Bevilacqua, Yangze Zhou, and Bruno Ribeiro. Size-invariant graph representations for graph classification extrapolations. arXiv:2103.05045, 2021.
- Blanc et al. (2020) Guy Blanc, Neha Gupta, Gregory Valiant, and Paul Valiant. Implicit regularization for deep neural networks driven by an ornstein-uhlenbeck like process. In COLT, 2020.
- Bodnar et al. (2021) Cristian Bodnar, Fabrizio Frasca, Yu Guang Wang, Nina Otter, Guido Montúfar, Pietro Liò, and Michael Bronstein. Weisfeiler and lehman go topological: Message passing simplicial networks. arXiv:2103.03212, 2021.
- Bogatskiy et al. (2020) Alexander Bogatskiy, Brandon Anderson, Jan Offermann, Marwah Roussi, David Miller, and Risi Kondor. Lorentz group equivariant neural network for particle physics. In ICML, 2020.
- Borsuk (1933) Karol Borsuk. Drei sätze über die n-dimensionale euklidische sphäre. Fundamenta Mathematicae, 20(1):177–190, 1933.
- Boscaini et al. (2015) Davide Boscaini, Davide Eynard, Drosos Kourounis, and Michael M Bronstein. Shape-from-operator: Recovering shapes from intrinsic operators. Computer Graphics Forum, 34(2):265–274, 2015.
- Boscaini et al. (2016a) Davide Boscaini, Jonathan Masci, Emanuele Rodoià, and Michael Bronstein. Learning shape correspondence with anisotropic convolutional neural networks. In NIPS, 2016a.
- Boscaini et al. (2016b) Davide Boscaini, Jonathan Masci, Emanuele Rodolà, Michael M Bronstein, and Daniel Cremers. Anisotropic diffusion descriptors. Computer Graphics Forum, 35(2):431–441, 2016b.
- Bougleux et al. (2015) Sébastien Bougleux, Luc Brun, Vincenzo Carletti, Pasquale Foggia, Benoit Gaüzere, and Mario Vento. A quadratic assignment formulation of the graph edit distance. arXiv:1512.07494, 2015.
- Bouritsas et al. (2020) Giorgos Bouritsas, Fabrizio Frasca, Stefanos Zafeiriou, and Michael M Bronstein. Improving graph neural network expressivity via subgraph isomorphism counting. arXiv:2006.09252, 2020.
- Bronstein et al. (2006) Alexander M Bronstein, Michael M Bronstein, and Ron Kimmel. Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching. PNAS, 103(5):1168–1172, 2006.
- Bronstein et al. (2008) Alexander M Bronstein, Michael M Bronstein, and Ron Kimmel. Numerical geometry of non-rigid shapes. Springer, 2008.
- Bronstein et al. (2017) Michael M Bronstein, Joan Bruna, Yann LeCun, Arthur Szlam, and Pierre Vandergheynst. Geometric deep learning: going beyond Euclidean data. IEEE Signal Processing Magazine, 34(4):18–42, 2017.
- Brown et al. (2020) Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. arXiv:2005.14165, 2020.
- Bruna and Mallat (2013) Joan Bruna and Stéphane Mallat. Invariant scattering convolution networks. IEEE transactions on pattern analysis and machine intelligence, 35(8):1872–1886, 2013.
- Bruna et al. (2013) Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann LeCun. Spectral networks and locally connected networks on graphs. In ICLR, 2013.
- Cappart et al. (2021) Quentin Cappart, Didier Chételat, Elias Khalil, Andrea Lodi, Christopher Morris, and Petar Veličković. Combinatorial optimization and reasoning with graph neural networks. arXiv:2102.09544, 2021.
- Chen et al. (2018) Ricky TQ Chen, Yulia Rubanova, Jesse Bettencourt, and David Duvenaud. Neural ordinary differential equations. arXiv:1806.07366, 2018.
- Chen et al. (2020) Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In ICML, 2020.
- Chern et al. (2018) Albert Chern, Felix Knöppel, Ulrich Pinkall, and Peter Schröder. Shape from metric. ACM Trans. Graphics, 37(4):1–17, 2018.
- Cho et al. (2014) Kyunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. arXiv:1406.1078, 2014.
- Choma et al. (2018) Nicholas Choma, Federico Monti, Lisa Gerhardt, Tomasz Palczewski, Zahra Ronaghi, Prabhat Prabhat, Wahid Bhimji, Michael M Bronstein, Spencer R Klein, and Joan Bruna. Graph neural networks for icecube signal classification. In ICMLA, 2018.
- Cohen and Welling (2016) Taco Cohen and Max Welling. Group equivariant convolutional networks. In ICML, 2016.
- Cohen et al. (2019) Taco Cohen, Maurice Weiler, Berkay Kicanaoglu, and Max Welling. Gauge equivariant convolutional networks and the icosahedral CNN. In ICML, 2019.
- Cohen et al. (2018) Taco S Cohen, Mario Geiger, Jonas Köhler, and Max Welling. Spherical cnns. arXiv:1801.10130, 2018.
- Cooijmans et al. (2016) Tim Cooijmans, Nicolas Ballas, César Laurent, Çağlar Gülçehre, and Aaron Courville. Recurrent batch normalization. arXiv:1603.09025, 2016.
- Corman et al. (2017) Etienne Corman, Justin Solomon, Mirela Ben-Chen, Leonidas Guibas, and Maks Ovsjanikov. Functional characterization of intrinsic and extrinsic geometry. ACM Trans. Graphics, 36(2):1–17, 2017.
- Cormen et al. (2009) Thomas H Cormen, Charles E Leiserson, Ronald L Rivest, and Clifford Stein. Introduction to algorithms. MIT press, 2009.
- Corso et al. (2020) Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, and Petar Veličković. Principal neighbourhood aggregation for graph nets. arXiv:2004.05718, 2020.
- Cosmo et al. (2020) Luca Cosmo, Anees Kazi, Seyed-Ahmad Ahmadi, Nassir Navab, and Michael Bronstein. Latent-graph learning for disease prediction. In MICCAI, 2020.
- Cranmer et al. (2020) Miles Cranmer, Sam Greydanus, Stephan Hoyer, Peter Battaglia, David Spergel, and Shirley Ho. Lagrangian neural networks. arXiv:2003.04630, 2020.
- Cranmer et al. (2019) Miles D Cranmer, Rui Xu, Peter Battaglia, and Shirley Ho. Learning symbolic physics with graph networks. arXiv:1909.05862, 2019.
- Cucurull et al. (2018) Guillem Cucurull, Konrad Wagstyl, Arantxa Casanova, Petar Veličković, Estrid Jakobsen, Michal Drozdzal, Adriana Romero, Alan Evans, and Yoshua Bengio. Convolutional neural networks for mesh-based parcellation of the cerebral cortex. 2018.
- Cybenko (1989) George Cybenko. Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2(4):303–314, 1989.
- Dai et al. (2016) Hanjun Dai, Bo Dai, and Le Song. Discriminative embeddings of latent variable models for structured data. In ICML, 2016.
- De Fauw et al. (2018) Jeffrey De Fauw, Joseph R Ledsam, Bernardino Romera-Paredes, Stanislav Nikolov, Nenad Tomasev, Sam Blackwell, Harry Askham, Xavier Glorot, Brendan O’Donoghue, Daniel Visentin, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nature Medicine, 24(9):1342–1350, 2018.
- de Haan et al. (2020) Pim de Haan, Maurice Weiler, Taco Cohen, and Max Welling. Gauge equivariant mesh CNNs: Anisotropic convolutions on geometric graphs. In NeurIPS, 2020.
- Deac et al. (2019) Andreea Deac, Petar Veličković, and Pietro Sormanni. Attentive cross-modal paratope prediction. Journal of Computational Biology, 26(6):536–545, 2019.
- Deac et al. (2020) Andreea Deac, Petar Veličković, Ognjen Milinković, Pierre-Luc Bacon, Jian Tang, and Mladen Nikolić. Xlvin: executed latent value iteration nets. arXiv:2010.13146, 2020.
- Defferrard et al. (2016) Michaël Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. NIPS, 2016.
- Derrow-Pinion et al. (2021) Austin Derrow-Pinion, Jennifer She, David Wong, Oliver Lange, Todd Hester, Luis Perez, Marc Nunkesser, Seongjae Lee, Xueying Guo, Peter W Battaglia, Vishal Gupta, Ang Li, Zhongwen Xu, Alvaro Sanchez-Gonzalez, Yujia Li, and Petar Veličković. Traffic Prediction with Graph Neural Networks in Google Maps. 2021.
- Devlin et al. (2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805, 2018.
- Duvenaud et al. (2015) David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alán Aspuru-Guzik, and Ryan P Adams. Convolutional networks on graphs for learning molecular fingerprints. NIPS, 2015.
- Dwivedi and Bresson (2020) Vijay Prakash Dwivedi and Xavier Bresson. A generalization of transformer networks to graphs. arXiv:2012.09699, 2020.
- Elad and Kimmel (2003) Asi Elad and Ron Kimmel. On bending invariant signatures for surfaces. Trans. PAMI, 25(10):1285–1295, 2003.
- Elman (1990) Jeffrey L Elman. Finding structure in time. Cognitive Science, 14(2):179–211, 1990.
- Esteves et al. (2020) Carlos Esteves, Ameesh Makadia, and Kostas Daniilidis. Spin-weighted spherical CNNs. arXiv:2006.10731, 2020.
- Fang et al. (2020) Xiaomin Fang, Jizhou Huang, Fan Wang, Lingke Zeng, Haijin Liang, and Haifeng Wang. ConSTGAT: Contextual spatial-temporal graph attention network for travel time estimation at baidu maps. In KDD, 2020.
- Fey et al. (2020) Matthias Fey, Jan-Gin Yuen, and Frank Weichert. Hierarchical inter-message passing for learning on molecular graphs. arXiv:2006.12179, 2020.
- Finzi et al. (2020) Marc Finzi, Samuel Stanton, Pavel Izmailov, and Andrew Gordon Wilson. Generalizing convolutional neural networks for equivariance to lie groups on arbitrary continuous data. In ICML, 2020.
- Folkman (1967) Jon Folkman. Regular line-symmetric graphs. Journal of Combinatorial Theory, 3(3):215–232, 1967.
- Franceschi et al. (2019) Luca Franceschi, Mathias Niepert, Massimiliano Pontil, and Xiao He. Learning discrete structures for graph neural networks. In ICML, 2019.
- Frasconi et al. (1998) Paolo Frasconi, Marco Gori, and Alessandro Sperduti. A general framework for adaptive processing of data structures. IEEE Trans. Neural Networks, 9(5):768–786, 1998.
- Freivalds et al. (2019) Kārlis Freivalds, Emīls Ozoliņš, and Agris Šostaks. Neural shuffle-exchange networks–sequence processing in o (n log n) time. arXiv:1907.07897, 2019.
- Fuchs et al. (2020) Fabian B Fuchs, Daniel E Worrall, Volker Fischer, and Max Welling. SE(3)-transformers: 3D roto-translation equivariant attention networks. arXiv:2006.10503, 2020.
- Fukushima and Miyake (1982) Kunihiko Fukushima and Sei Miyake. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition. In Competition and Cooperation in Neural Nets, pages 267–285. Springer, 1982.
- Gainza et al. (2020) Pablo Gainza, Freyr Sverrisson, Frederico Monti, Emanuele Rodola, D Boscaini, MM Bronstein, and BE Correia. Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning. Nature Methods, 17(2):184–192, 2020.
- Gama et al. (2019) Fernando Gama, Alejandro Ribeiro, and Joan Bruna. Diffusion scattering transforms on graphs. In ICLR, 2019.
- Gama et al. (2020) Fernando Gama, Joan Bruna, and Alejandro Ribeiro. Stability properties of graph neural networks. IEEE Trans. Signal Processing, 68:5680–5695, 2020.
- Gao et al. (2019) Hongchang Gao, Jian Pei, and Heng Huang. Conditional random field enhanced graph convolutional neural networks. In KDD, 2019.
- García-Durán and Niepert (2017) Alberto García-Durán and Mathias Niepert. Learning graph representations with embedding propagation. arXiv:1710.03059, 2017.
- Gatys et al. (2015) Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Texture synthesis using convolutional neural networks. arXiv preprint arXiv:1505.07376, 2015.
- Gaudelet et al. (2020) Thomas Gaudelet, Ben Day, Arian R Jamasb, Jyothish Soman, Cristian Regep, Gertrude Liu, Jeremy BR Hayter, Richard Vickers, Charles Roberts, Jian Tang, et al. Utilising graph machine learning within drug discovery and development. arXiv:2012.05716, 2020.
- Gers and Schmidhuber (2000) Felix A Gers and Jürgen Schmidhuber. Recurrent nets that time and count. In IJCNN, 2000.
- Gilmer et al. (2017) Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. arXiv:1704.01212, 2017.
- Girshick (2015) Ross Girshick. Fast R-CNN. In CVPR, 2015.
- Girshick et al. (2014) Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
- Gligorijevic et al. (2020) Vladimir Gligorijevic, P Douglas Renfrew, Tomasz Kosciolek, Julia Koehler Leman, Daniel Berenberg, Tommi Vatanen, Chris Chandler, Bryn C Taylor, Ian M Fisk, Hera Vlamakis, et al. Structure-based function prediction using graph convolutional networks. bioRxiv:786236, 2020.
- Goller and Kuchler (1996) Christoph Goller and Andreas Kuchler. Learning task-dependent distributed representations by backpropagation through structure. In ICNN, 1996.
- Goodfellow et al. (2014) Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. arXiv:1406.2661, 2014.
- Gori et al. (2005) Marco Gori, Gabriele Monfardini, and Franco Scarselli. A new model for learning in graph domains. In IJCNN, 2005.
- Graves (2013) Alex Graves. Generating sequences with recurrent neural networks. arXiv:1308.0850, 2013.
- Graves et al. (2014) Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines. arXiv:1410.5401, 2014.
- Graves et al. (2016) Alex Graves, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez Colmenarejo, Edward Grefenstette, Tiago Ramalho, John Agapiou, et al. Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626):471–476, 2016.
- Grill et al. (2020) Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al. Bootstrap your own latent: A new approach to self-supervised learning. arXiv:2006.07733, 2020.
- Gromov (1981) Mikhael Gromov. Structures métriques pour les variétés riemanniennes. Cedic, 1981.
- Grover and Leskovec (2016) Aditya Grover and Jure Leskovec. node2vec: Scalable feature learning for networks. In KDD, 2016.
- Gunasekar et al. (2017) Suriya Gunasekar, Blake E Woodworth, Srinadh Bhojanapalli, Behnam Neyshabur, and Nati Srebro. Implicit regularization in matrix factorization. In NIPS, 2017.
- Gysi et al. (2020) Deisy Morselli Gysi, Ítalo Do Valle, Marinka Zitnik, Asher Ameli, Xiao Gan, Onur Varol, Helia Sanchez, Rebecca Marlene Baron, Dina Ghiassian, Joseph Loscalzo, et al. Network medicine framework for identifying drug repurposing opportunities for COVID-19. arXiv:2004.07229, 2020.
- Hamilton et al. (2017) Will Hamilton, Zhitao Ying, and Jure Leskovec. Inductive representation learning on large graphs. In NIPS, 2017.
- Hao et al. (2020) Junheng Hao, Tong Zhao, Jin Li, Xin Luna Dong, Christos Faloutsos, Yizhou Sun, and Wei Wang. P-companion: A principled framework for diversified complementary product recommendation. In Information & Knowledge Management, 2020.
- Hardt and Ma (2016) Moritz Hardt and Tengyu Ma. Identity matters in deep learning. arXiv:1611.04231, 2016.
- He et al. (2016) Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
- He et al. (2017) Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn. In CVPR, 2017.
- Helvétius (1759) Claude Adrien Helvétius. De l’esprit. Durand, 1759.
- Hjelm et al. (2019) R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, and Yoshua Bengio. Learning deep representations by mutual information estimation and maximization. In ICLR, 2019.
- Hochreiter (1991) Sepp Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. PhD thesis, Technische Universität München, 1991.
- Hochreiter and Schmidhuber (1997) Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997.
- Hornik (1991) Kurt Hornik. Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2):251–257, 1991.
- Hoshen (2017) Yedid Hoshen. Vain: Attentional multi-agent predictive modeling. arXiv:1706.06122, 2017.
- Hu et al. (2020) Weihua Hu, Bowen Liu, Joseph Gomes, Marinka Zitnik, Percy Liang, Vijay Pande, and Jure Leskovec. Strategies for pre-training graph neural networks. In ICLR, 2020.
- Hubel and Wiesel (1959) David H Hubel and Torsten N Wiesel. Receptive fields of single neurones in the cat’s striate cortex. J. Physiology, 148(3):574–591, 1959.
- Hutchinson et al. (2020) Michael Hutchinson, Charline Le Lan, Sheheryar Zaidi, Emilien Dupont, Yee Whye Teh, and Hyunjik Kim. LieTransformer: Equivariant self-attention for Lie groups. arXiv:2012.10885, 2020.
- Ioffe and Szegedy (2015) Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
- Iqbal (2018) Haris Iqbal. Harisiqbal88/plotneuralnet v1.0.0, December 2018. URL https://doi.org/10.5281/zenodo.2526396.
- Itani and Thanou (2021) Sarah Itani and Dorina Thanou. Combining anatomical and functional networks for neuropathology identification: A case study on autism spectrum disorder. Medical Image Analysis, 69:101986, 2021.
- Jin et al. (2018) Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Junction tree variational autoencoder for molecular graph generation. In ICML, 2018.
- Jin et al. (2020) Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Hierarchical generation of molecular graphs using structural motifs. In ICML, 2020.
- Johnson et al. (2016) Alistair EW Johnson, Tom J Pollard, Lu Shen, H Lehman Li-Wei, Mengling Feng, Mohammad Ghassemi, Benjamin Moody, Peter Szolovits, Leo Anthony Celi, and Roger G Mark. Mimic-iii, a freely accessible critical care database. Scientific Data, 3(1):1–9, 2016.
- Jordan (1997) Michael I Jordan. Serial order: A parallel distributed processing approach. In Advances in Psychology, volume 121, pages 471–495. 1997.
- Joshi (2020) Chaitanya Joshi. Transformers are graph neural networks. The Gradient, 2020.
- Jozefowicz et al. (2015) Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. An empirical exploration of recurrent network architectures. In ICML, 2015.
- Kaiser and Sutskever (2015) Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. arXiv:1511.08228, 2015.
- Kalchbrenner et al. (2016) Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv:1610.10099, 2016.
- Kalchbrenner et al. (2018) Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, and Koray Kavukcuoglu. Efficient neural audio synthesis. In ICML, 2018.
- Kanatani (2012) Ken-Ichi Kanatani. Group-theoretical methods in image understanding. Springer, 2012.
- Karni and Gotsman (2000) Zachi Karni and Craig Gotsman. Spectral compression of mesh geometry. In Proc. Computer Graphics and Interactive Techniques, 2000.
- Kazi et al. (2020) Anees Kazi, Luca Cosmo, Nassir Navab, and Michael Bronstein. Differentiable graph module (DGM) graph convolutional networks. arXiv:2002.04999, 2020.
- Kenlay et al. (2021) Henry Kenlay, Dorina Thanou, and Xiaowen Dong. Interpretable stability bounds for spectral graph filters. arXiv:2102.09587, 2021.
- Kimmel and Sethian (1998) Ron Kimmel and James A Sethian. Computing geodesic paths on manifolds. PNAS, 95(15):8431–8435, 1998.
- Kingma and Ba (2014) Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv:1412.6980, 2014.
- Kingma and Welling (2013) Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv:1312.6114, 2013.
- Kipf et al. (2018) Thomas Kipf, Ethan Fetaya, Kuan-Chieh Wang, Max Welling, and Richard Zemel. Neural relational inference for interacting systems. In ICML, 2018.
- Kipf and Welling (2016a) Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv:1609.02907, 2016a.
- Kipf and Welling (2016b) Thomas N Kipf and Max Welling. Variational graph auto-encoders. arXiv:1611.07308, 2016b.
- Kireev (1995) Dmitry B Kireev. Chemnet: a novel neural network based method for graph/property mapping. J. Chemical Information and Computer Sciences, 35(2):175–180, 1995.
- Klicpera et al. (2020) Johannes Klicpera, Janek Groß, and Stephan Günnemann. Directional message passing for molecular graphs. arXiv:2003.03123, 2020.
- Kokkinos et al. (2012) Iasonas Kokkinos, Michael M Bronstein, Roee Litman, and Alex M Bronstein. Intrinsic shape context descriptors for deformable shapes. In CVPR, 2012.
- Komiske et al. (2019) Patrick T Komiske, Eric M Metodiev, and Jesse Thaler. Energy flow networks: deep sets for particle jets. Journal of High Energy Physics, 2019(1):121, 2019.
- Kostrikov et al. (2018) Ilya Kostrikov, Zhongshi Jiang, Daniele Panozzo, Denis Zorin, and Joan Bruna. Surface networks. In CVPR, 2018.
- Krizhevsky et al. (2012) Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
- Ktena et al. (2017) Sofia Ira Ktena, Sarah Parisot, Enzo Ferrante, Martin Rajchl, Matthew Lee, Ben Glocker, and Daniel Rueckert. Distance metric learning using graph convolutional networks: Application to functional brain networks. In MICCAI, 2017.
- Kulon et al. (2020) Dominik Kulon, Riza Alp Guler, Iasonas Kokkinos, Michael M Bronstein, and Stefanos Zafeiriou. Weakly-supervised mesh-convolutional hand reconstruction in the wild. In CVPR, 2020.
- Kurach et al. (2015) Karol Kurach, Marcin Andrychowicz, and Ilya Sutskever. Neural random-access machines. arXiv:1511.06392, 2015.
- LeCun et al. (1998) Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proc. IEEE, 86(11):2278–2324, 1998.
- Lenz (1990) Reiner Lenz. Group theoretical methods in image processing. Springer, 1990.
- Leshno et al. (1993) Moshe Leshno, Vladimir Ya Lin, Allan Pinkus, and Shimon Schocken. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Neural Networks, 6(6):861–867, 1993.
- Levie et al. (2018) Ron Levie, Federico Monti, Xavier Bresson, and Michael M Bronstein. Cayleynets: Graph convolutional neural networks with complex rational spectral filters. IEEE Trans. Signal Processing, 67(1):97–109, 2018.
- Levie et al. (2019) Ron Levie, Elvin Isufi, and Gitta Kutyniok. On the transferability of spectral graph filters. In Sampling Theory and Applications, 2019.
- Lévy (2006) Bruno Lévy. Laplace-Beltrami eigenfunctions towards an algorithm that “understands” geometry. In Proc. Shape Modeling and Applications, 2006.
- Li et al. (2015) Yujia Li, Daniel Tarlow, Marc Brockschmidt, and Richard Zemel. Gated graph sequence neural networks. arXiv:1511.05493, 2015.
- Litany et al. (2018) Or Litany, Alex Bronstein, Michael Bronstein, and Ameesh Makadia. Deformable shape completion with graph convolutional autoencoders. In CVPR, 2018.
- Litman and Bronstein (2013) Roee Litman and Alexander M Bronstein. Learning spectral descriptors for deformable shape correspondence. Trans. PAMI, 36(1):171–180, 2013.
- Liu et al. (2017) Hsueh-Ti Derek Liu, Alec Jacobson, and Keenan Crane. A Dirac operator for extrinsic shape analysis. Computer Graphics Forum, 36(5):139–149, 2017.
- Lyu and Simoncelli (2008) Siwei Lyu and Eero P Simoncelli. Nonlinear image representation using divisive normalization. In CVPR, 2008.
- MacNeal (1949) Richard H MacNeal. The solution of partial differential equations by means of electrical networks. PhD thesis, California Institute of Technology, 1949.
- Madsen and Johansen (2020) Andreas Madsen and Alexander Rosenberg Johansen. Neural arithmetic units. arXiv:2001.05016, 2020.
- Mahdi et al. (2020) Soha Sadat Mahdi, Nele Nauwelaers, Philip Joris, Giorgos Bouritsas, Shunwang Gong, Sergiy Bokhnyak, Susan Walsh, Mark Shriver, Michael Bronstein, and Peter Claes. 3d facial matching by spiral convolutional metric learning and a biometric fusion-net of demographic properties. arXiv:2009.04746, 2020.
- Maiorov (1999) VE Maiorov. On best approximation by ridge functions. Journal of Approximation Theory, 99(1):68–94, 1999.
- Makadia et al. (2007) Ameesh Makadia, Christopher Geyer, and Kostas Daniilidis. Correspondence-free structure from motion. IJCV, 75(3):311–327, 2007.
- Mallat (1999) Stéphane Mallat. A wavelet tour of signal processing. Elsevier, 1999.
- Mallat (2012) Stéphane Mallat. Group invariant scattering. Communications on Pure and Applied Mathematics, 65(10):1331–1398, 2012.
- Malone et al. (2018) Brandon Malone, Alberto Garcia-Duran, and Mathias Niepert. Learning representations of missing data for predicting patient outcomes. arXiv:1811.04752, 2018.
- Maron et al. (2018) Haggai Maron, Heli Ben-Hamu, Nadav Shamir, and Yaron Lipman. Invariant and equivariant graph networks. arXiv:1812.09902, 2018.
- Maron et al. (2019) Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, and Yaron Lipman. Provably powerful graph networks. arXiv:1905.11136, 2019.
- Marquis (2009) Jean-Pierre Marquis. Category theory and klein’s erlangen program. In From a Geometrical Point of View, pages 9–40. Springer, 2009.
- Masci et al. (2015) Jonathan Masci, Davide Boscaini, Michael Bronstein, and Pierre Vandergheynst. Geodesic convolutional neural networks on Riemannian manifolds. In CVPR Workshops, 2015.
- Maxwell (1865) James Clerk Maxwell. A dynamical theory of the electromagnetic field. Philosophical Transactions of the Royal Society of London, (155):459–512, 1865.
- McEwen et al. (2021) Jason D McEwen, Christopher GR Wallis, and Augustine N Mavor-Parker. Scattering networks on the sphere for scalable and rotationally equivariant spherical cnns. arXiv:2102.02828, 2021.
- Mei et al. (2021) Song Mei, Theodor Misiakiewicz, and Andrea Montanari. Learning with invariances in random features and kernel models. arXiv:2102.13219, 2021.
- Melzi et al. (2019) Simone Melzi, Riccardo Spezialetti, Federico Tombari, Michael M Bronstein, Luigi Di Stefano, and Emanuele Rodolà. Gframes: Gradient-based local reference frame for 3d shape matching. In CVPR, 2019.
- Mémoli and Sapiro (2005) Facundo Mémoli and Guillermo Sapiro. A theoretical and computational framework for isometry invariant recognition of point cloud data. Foundations of Computational Mathematics, 5(3):313–347, 2005.
- Merkwirth and Lengauer (2005) Christian Merkwirth and Thomas Lengauer. Automatic generation of complementary descriptors with molecular graph networks. J. Chemical Information and Modeling, 45(5):1159–1168, 2005.
- Meyer et al. (2003) Mark Meyer, Mathieu Desbrun, Peter Schröder, and Alan H Barr. Discrete differential-geometry operators for triangulated 2-manifolds. In Visualization and Mathematics III, pages 35–57. 2003.
- Micheli (2009) Alessio Micheli. Neural network for graphs: A contextual constructive approach. IEEE Trans. Neural Networks, 20(3):498–511, 2009.
- Miller et al. (2016) Karla L Miller, Fidel Alfaro-Almagro, Neal K Bangerter, David L Thomas, Essa Yacoub, Junqian Xu, Andreas J Bartsch, Saad Jbabdi, Stamatios N Sotiropoulos, Jesper LR Andersson, et al. Multimodal population brain imaging in the uk biobank prospective epidemiological study. Nature Neuroscience, 19(11):1523–1536, 2016.
- Minsky and Papert (2017) Marvin Minsky and Seymour A Papert. Perceptrons: An introduction to computational geometry. MIT Press, 2017.
- Mitrovic et al. (2020) Jovana Mitrovic, Brian McWilliams, Jacob Walker, Lars Buesing, and Charles Blundell. Representation learning via invariant causal mechanisms. arXiv:2010.07922, 2020.
- Mnih et al. (2015) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
- Mnih et al. (2016) Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In ICML, 2016.
- Monti et al. (2017) Federico Monti, Davide Boscaini, Jonathan Masci, Emanuele Rodola, Jan Svoboda, and Michael M Bronstein. Geometric deep learning on graphs and manifolds using mixture model cnns. In CVPR, 2017.
- Monti et al. (2019) Federico Monti, Fabrizio Frasca, Davide Eynard, Damon Mannion, and Michael M Bronstein. Fake news detection on social media using geometric deep learning. arXiv:1902.06673, 2019.
- Morris et al. (2017) Christopher Morris, Kristian Kersting, and Petra Mutzel. Glocalized Weisfeiler-Lehman graph kernels: Global-local feature maps of graphs. In ICDM, 2017.
- Morris et al. (2019) Christopher Morris, Martin Ritzert, Matthias Fey, William L Hamilton, Jan Eric Lenssen, Gaurav Rattan, and Martin Grohe. Weisfeiler and leman go neural: Higher-order graph neural networks. In AAAI, 2019.
- Morris et al. (2020) Christopher Morris, Gaurav Rattan, and Petra Mutzel. Weisfeiler and Leman go sparse: Towards scalable higher-order graph embeddings. In NeurIPS, 2020.
- Mozer (1989) Michael C Mozer. A focused back-propagation algorithm for temporal pattern recognition. Complex Systems, 3(4):349–381, 1989.
- Murphy et al. (2013) Kevin Murphy, Yair Weiss, and Michael I Jordan. Loopy belief propagation for approximate inference: An empirical study. arXiv:1301.6725, 2013.
- Murphy et al. (2019) Ryan Murphy, Balasubramaniam Srinivasan, Vinayak Rao, and Bruno Ribeiro. Relational pooling for graph representations. In ICML, 2019.
- Murphy et al. (2018) Ryan L Murphy, Balasubramaniam Srinivasan, Vinayak Rao, and Bruno Ribeiro. Janossy pooling: Learning deep permutation-invariant functions for variable-size inputs. arXiv:1811.01900, 2018.
- Nair and Hinton (2010) Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.
- Nash (1956) John Nash. The imbedding problem for Riemannian manifolds. Annals of Mathematics, 63(1):20––63, 1956.
- Neyshabur et al. (2015) Behnam Neyshabur, Ryota Tomioka, and Nathan Srebro. Norm-based capacity control in neural networks. In COLT, 2015.
- Noether (1918) Emmy Noether. Invariante variationsprobleme. In König Gesellsch. d. Wiss. zu Göttingen, Math-Phys. Klassc, pages 235–257. 1918.
- Ovsjanikov et al. (2008) Maks Ovsjanikov, Jian Sun, and Leonidas Guibas. Global intrinsic symmetries of shapes. Computer Graphics Forum, 27(5):1341–1348, 2008.
- Ovsjanikov et al. (2012) Maks Ovsjanikov, Mirela Ben-Chen, Justin Solomon, Adrian Butscher, and Leonidas Guibas. Functional maps: a flexible representation of maps between shapes. ACM Trans. Graphics, 31(4):1–11, 2012.
- Pal et al. (2020) Aditya Pal, Chantat Eksombatchai, Yitong Zhou, Bo Zhao, Charles Rosenberg, and Jure Leskovec. Pinnersage: Multi-modal user embedding framework for recommendations at pinterest. In KDD, 2020.
- Parisot et al. (2018) Sarah Parisot, Sofia Ira Ktena, Enzo Ferrante, Matthew Lee, Ricardo Guerrero, Ben Glocker, and Daniel Rueckert. Disease prediction using graph convolutional networks: application to autism spectrum disorder and alzheimer’s disease. Medical Image Analysis, 48:117–130, 2018.
- Pascanu et al. (2013) Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. On the difficulty of training recurrent neural networks. In ICML, 2013.
- Patanè (2020) Giuseppe Patanè. Fourier-based and rational graph filters for spectral processing. arXiv:2011.04055, 2020.
- Pearl (2014) Judea Pearl. Probabilistic reasoning in intelligent systems: networks of plausible inference. Elsevier, 2014.
- Penrose (2005) Roger Penrose. The road to reality: A complete guide to the laws of the universe. Random House, 2005.
- Perozzi et al. (2014) Bryan Perozzi, Rami Al-Rfou, and Steven Skiena. Deepwalk: Online learning of social representations. In KDD, 2014.
- Pfaff et al. (2020) Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter W Battaglia. Learning mesh-based simulation with graph networks. arXiv:2010.03409, 2020.
- Pineda (1988) Fernando J Pineda. Generalization of back propagation to recurrent and higher order neural networks. In NIPS, 1988.
- Pinkall and Polthier (1993) Ulrich Pinkall and Konrad Polthier. Computing discrete minimal surfaces and their conjugates. Experimental Mathematics, 2(1):15–36, 1993.
- Pinkus (1999) Allan Pinkus. Approximation theory of the mlp model in neural networks. Acta Numerica, 8:143–195, 1999.
- Pollard et al. (2018) Tom J Pollard, Alistair EW Johnson, Jesse D Raffa, Leo A Celi, Roger G Mark, and Omar Badawi. The eicu collaborative research database, a freely available multi-center database for critical care research. Scientific Data, 5(1):1–13, 2018.
- Portilla and Simoncelli (2000) Javier Portilla and Eero P Simoncelli. A parametric texture model based on joint statistics of complex wavelet coefficients. International journal of computer vision, 40(1):49–70, 2000.
- Qi et al. (2017) Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR, 2017.
- Qiu et al. (2018) Jiezhong Qiu, Yuxiao Dong, Hao Ma, Jian Li, Kuansan Wang, and Jie Tang. Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In WSDM, 2018.
- Qu and Gouskos (2019) H Qu and L Gouskos. Particlenet: jet tagging via particle clouds. arXiv:1902.08570, 2019.
- Qu et al. (2019) Meng Qu, Yoshua Bengio, and Jian Tang. GMNN: Graph Markov neural networks. In ICML, 2019.
- Radford et al. (2018) Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018.
- Radford et al. (2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
- Ranjan et al. (2018) Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, and Michael J Black. Generating 3D faces using convolutional mesh autoencoders. In ECCV, 2018.
- Raviv et al. (2007) Dan Raviv, Alexander M Bronstein, Michael M Bronstein, and Ron Kimmel. Symmetries of non-rigid shapes. In ICCV, 2007.
- Razin and Cohen (2020) Noam Razin and Nadav Cohen. Implicit regularization in deep learning may not be explainable by norms. arXiv:2005.06398, 2020.
- Reed and De Freitas (2015) Scott Reed and Nando De Freitas. Neural programmer-interpreters. arXiv:1511.06279, 2015.
- Ren et al. (2015) Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv:1506.01497, 2015.
- Rezende and Mohamed (2015) Danilo Rezende and Shakir Mohamed. Variational inference with normalizing flows. In ICML, 2015.
- Riesenhuber and Poggio (1999) Maximilian Riesenhuber and Tomaso Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 2(11):1019–1025, 1999.
- Robinson and Fallside (1987) AJ Robinson and Frank Fallside. The utility driven dynamic error propagation network. University of Cambridge, 1987.
- Rocheteau et al. (2020) Emma Rocheteau, Pietro Liò, and Stephanie Hyland. Temporal pointwise convolutional networks for length of stay prediction in the intensive care unit. arXiv:2007.09483, 2020.
- Rocheteau et al. (2021) Emma Rocheteau, Catherine Tong, Petar Veličković, Nicholas Lane, and Pietro Liò. Predicting patient outcomes with graph representation learning. arXiv:2101.03940, 2021.
- Ronneberger et al. (2015) Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
- Rosenblatt (1958) Frank Rosenblatt. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological Review, 65(6):386, 1958.
- Rossi et al. (2020) Emanuele Rossi, Ben Chamberlain, Fabrizio Frasca, Davide Eynard, Federico Monti, and Michael Bronstein. Temporal graph networks for deep learning on dynamic graphs. arXiv:2006.10637, 2020.
- Russakovsky et al. (2015) Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252, 2015.
- Rustamov et al. (2013) Raif M Rustamov, Maks Ovsjanikov, Omri Azencot, Mirela Ben-Chen, Frédéric Chazal, and Leonidas Guibas. Map-based exploration of intrinsic shape differences and variability. ACM Trans. Graphics, 32(4):1–12, 2013.
- Salimans and Kingma (2016) Tim Salimans and Diederik P Kingma. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. arXiv:1602.07868, 2016.
- Sanchez-Gonzalez et al. (2019) Alvaro Sanchez-Gonzalez, Victor Bapst, Kyle Cranmer, and Peter Battaglia. Hamiltonian graph networks with ODE integrators. arXiv:1909.12790, 2019.
- Sanchez-Gonzalez et al. (2020) Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In ICML, 2020.
- Sandryhaila and Moura (2013) Aliaksei Sandryhaila and José MF Moura. Discrete signal processing on graphs. IEEE Trans. Signal Processing, 61(7):1644–1656, 2013.
- Santoro et al. (2017) Adam Santoro, David Raposo, David G Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, and Timothy Lillicrap. A simple neural network module for relational reasoning. In NIPS, 2017.
- Santoro et al. (2018) Adam Santoro, Ryan Faulkner, David Raposo, Jack Rae, Mike Chrzanowski, Theophane Weber, Daan Wierstra, Oriol Vinyals, Razvan Pascanu, and Timothy Lillicrap. Relational recurrent neural networks. arXiv:1806.01822, 2018.
- Santurkar et al. (2018) Shibani Santurkar, Dimitris Tsipras, Andrew Ilyas, and Aleksander Madry. How does batch normalization help optimization? arXiv:1805.11604, 2018.
- Sato et al. (2020) Ryoma Sato, Makoto Yamada, and Hisashi Kashima. Random features strengthen graph neural networks. arXiv:2002.03155, 2020.
- Satorras et al. (2021) Victor Garcia Satorras, Emiel Hoogeboom, and Max Welling. E(n) equivariant graph neural networks. arXiv:2102.09844, 2021.
- Scaife and Porter (2021) Anna MM Scaife and Fiona Porter. Fanaroff-Riley classification of radio galaxies using group-equivariant convolutional neural networks. Monthly Notices of the Royal Astronomical Society, 2021.
- Scarselli et al. (2008) Franco Scarselli, Marco Gori, Ah Chung Tsoi, Markus Hagenbuchner, and Gabriele Monfardini. The graph neural network model. IEEE Trans. Neural Networks, 20(1):61–80, 2008.
- Schrittwieser et al. (2020) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839):604–609, 2020.
- Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv:1707.06347, 2017.
- Schütt et al. (2018) Kristof T Schütt, Huziel E Sauceda, P-J Kindermans, Alexandre Tkatchenko, and K-R Müller. Schnet–a deep learning architecture for molecules and materials. The Journal of Chemical Physics, 148(24):241722, 2018.
- Sejnowski et al. (1986) Terrence J Sejnowski, Paul K Kienker, and Geoffrey E Hinton. Learning symmetry groups with hidden units: Beyond the perceptron. Physica D: Nonlinear Phenomena, 22(1-3):260–275, 1986.
- Senior et al. (2020) Andrew W Senior, Richard Evans, John Jumper, James Kirkpatrick, Laurent Sifre, Tim Green, Chongli Qin, Augustin Žídek, Alexander WR Nelson, Alex Bridgland, et al. Improved protein structure prediction using potentials from deep learning. Nature, 577(7792):706–710, 2020.
- Serre et al. (2007) Thomas Serre, Aude Oliva, and Tomaso Poggio. A feedforward architecture accounts for rapid categorization. Proceedings of the national academy of sciences, 104(15):6424–6429, 2007.
- Shamir and Vardi (2020) Ohad Shamir and Gal Vardi. Implicit regularization in relu networks with the square loss. arXiv:2012.05156, 2020.
- Shawe-Taylor (1989) John Shawe-Taylor. Building symmetries into feedforward networks. In ICANN, 1989.
- Shawe-Taylor (1993) John Shawe-Taylor. Symmetries and discriminability in feedforward network architectures. IEEE Trans. Neural Networks, 4(5):816–826, 1993.
- Shervashidze et al. (2011) Nino Shervashidze, Pascal Schweitzer, Erik Jan Van Leeuwen, Kurt Mehlhorn, and Karsten M Borgwardt. Weisfeiler-lehman graph kernels. JMLR, 12(9), 2011.
- Shlomi et al. (2020) Jonathan Shlomi, Peter Battaglia, and Jean-Roch Vlimant. Graph neural networks in particle physics. Machine Learning: Science and Technology, 2(2):021001, 2020.
- Shuman et al. (2013) David I Shuman, Sunil K Narang, Pascal Frossard, Antonio Ortega, and Pierre Vandergheynst. The emerging field of signal processing on graphs: Extending high-dimensional data analysis to networks and other irregular domains. IEEE Signal Processing Magazine, 30(3):83–98, 2013.
- Siegelmann and Sontag (1995) Hava T Siegelmann and Eduardo D Sontag. On the computational power of neural nets. Journal of Computer and System Sciences, 50(1):132–150, 1995.
- Silver et al. (2016) David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016.
- Silver et al. (2017) David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, et al. Mastering the game of go without human knowledge. Nature, 550(7676):354–359, 2017.
- Simoncelli and Freeman (1995) Eero P Simoncelli and William T Freeman. The steerable pyramid: A flexible architecture for multi-scale derivative computation. In Proceedings., International Conference on Image Processing, volume 3, pages 444–447. IEEE, 1995.
- Simonyan and Zisserman (2014) Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.
- Smola et al. (2007) Alex Smola, Arthur Gretton, Le Song, and Bernhard Schölkopf. A Hilbert space embedding for distributions. In ALT, 2007.
- Spalević et al. (2020) Stefan Spalević, Petar Veličković, Jovana Kovačević, and Mladen Nikolić. Hierachial protein function prediction with tail-GNNs. arXiv:2007.12804, 2020.
- Sperduti (1994) Alessandro Sperduti. Encoding labeled graphs by labeling RAAM. In NIPS, 1994.
- Sperduti and Starita (1997) Alessandro Sperduti and Antonina Starita. Supervised neural networks for the classification of structures. IEEE Trans. Neural Networks, 8(3):714–735, 1997.
- Springenberg et al. (2014) Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. Striving for simplicity: The all convolutional net. arXiv:1412.6806, 2014.
- Srinivasan and Ribeiro (2019) Balasubramaniam Srinivasan and Bruno Ribeiro. On the equivalence between positional node embeddings and structural graph representations. arXiv:1910.00452, 2019.
- Srivastava et al. (2014) Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. JMLR, 15(1):1929–1958, 2014.
- Srivastava et al. (2015) Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. Highway networks. arXiv:1505.00387, 2015.
- Stachenfeld et al. (2020) Kimberly Stachenfeld, Jonathan Godwin, and Peter Battaglia. Graph networks with spectral message passing. arXiv:2101.00079, 2020.
- Stokes et al. (2020) Jonathan M Stokes, Kevin Yang, Kyle Swanson, Wengong Jin, Andres Cubillos-Ruiz, Nina M Donghia, Craig R MacNair, Shawn French, Lindsey A Carfrae, Zohar Bloom-Ackerman, et al. A deep learning approach to antibiotic discovery. Cell, 180(4):688–702, 2020.
- Strathmann et al. (2021) Heiko Strathmann, Mohammadamin Barekatain, Charles Blundell, and Petar Veličković. Persistent message passing. arXiv:2103.01043, 2021.
- Straumann (1996) Norbert Straumann. Early history of gauge theories and weak interactions. hep-ph/9609230, 1996.
- Sun et al. (2009) Jian Sun, Maks Ovsjanikov, and Leonidas Guibas. A concise and provably informative multi-scale signature based on heat diffusion. Computer Graphics Forum, 28(5):1383–1392, 2009.
- Sutskever et al. (2014) Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. arXiv:1409.3215, 2014.
- Szegedy et al. (2015) Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In CVPR, 2015.
- Tallec and Ollivier (2018) Corentin Tallec and Yann Ollivier. Can recurrent neural networks warp time? arXiv:1804.11188, 2018.
- Tang et al. (2020) Hao Tang, Zhiao Huang, Jiayuan Gu, Bao-Liang Lu, and Hao Su. Towards scale-invariant graph-related problem solving by iterative homogeneous gnns. In NeurIPS, 2020.
- Tang et al. (2015) Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. Line: Large-scale information network embedding. In WWW, 2015.
- Taubin et al. (1996) Gabriel Taubin, Tong Zhang, and Gene Golub. Optimal surface smoothing as filter design. In ECCV, 1996.
- Thakoor et al. (2021) Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, and Michal Valko. Bootstrapped representation learning on graphs. arXiv:2102.06514, 2021.
- Thomas et al. (2018) Nathaniel Thomas, Tess Smidt, Steven Kearnes, Lusann Yang, Li Li, Kai Kohlhoff, and Patrick Riley. Tensor field networks: Rotation-and translation-equivariant neural networks for 3D point clouds. arXiv:1802.08219, 2018.
- Tobies (2019) Renate Tobies. Felix Klein—-mathematician, academic organizer, educational reformer. In The Legacy of Felix Klein, pages 5–21. Springer, 2019.
- Trask et al. (2018) Andrew Trask, Felix Hill, Scott Reed, Jack Rae, Chris Dyer, and Phil Blunsom. Neural arithmetic logic units. arXiv:1808.00508, 2018.
- Tromp and Farnebäck (2006) John Tromp and Gunnar Farnebäck. Combinatorics of go. In International Conference on Computers and Games, 2006.
- Tsybakov (2008) Alexandre B Tsybakov. Introduction to nonparametric estimation. Springer, 2008.
- Ulyanov et al. (2016) Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv:1607.08022, 2016.
- van den Oord et al. (2016a) Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio. arXiv:1609.03499, 2016a.
- van den Oord et al. (2016b) Aaron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. In ICML, 2016b.
- Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017.
- Veličković et al. (2018) Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, and Yoshua Bengio. Graph Attention Networks. ICLR, 2018.
- Veličković et al. (2019) Petar Veličković, Rex Ying, Matilde Padovano, Raia Hadsell, and Charles Blundell. Neural execution of graph algorithms. arXiv:1910.10593, 2019.
- Veličković et al. (2020) Petar Veličković, Lars Buesing, Matthew C Overlan, Razvan Pascanu, Oriol Vinyals, and Charles Blundell. Pointer graph networks. arXiv:2006.06380, 2020.
- Veličković et al. (2019) Petar Veličković, Wiliam Fedus, William L. Hamilton, Pietro Liò, Yoshua Bengio, and R Devon Hjelm. Deep Graph Infomax. In ICLR, 2019.
- Veselkov et al. (2019) Kirill Veselkov, Guadalupe Gonzalez, Shahad Aljifri, Dieter Galea, Reza Mirnezami, Jozef Youssef, Michael Bronstein, and Ivan Laponogov. Hyperfoods: Machine intelligent mapping of cancer-beating molecules in foods. Scientific Reports, 9(1):1–12, 2019.
- Vinyals et al. (2015) Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. Pointer networks. arXiv:1506.03134, 2015.
- Vinyals et al. (2016) Oriol Vinyals, Samy Bengio, and Manjunath Kudlur. Order matters: Sequence to sequence for sets. In ICLR, 2016.
- von Luxburg and Bousquet (2004) Ulrike von Luxburg and Olivier Bousquet. Distance-based classification with lipschitz functions. JMLR, 5:669–695, 2004.
- Wainwright and Jordan (2008) Martin J Wainwright and Michael Irwin Jordan. Graphical models, exponential families, and variational inference. Now Publishers Inc, 2008.
- Wang and Solomon (2019) Yu Wang and Justin Solomon. Intrinsic and extrinsic operators for shape analysis. In Handbook of Numerical Analysis, volume 20, pages 41–115. Elsevier, 2019.
- Wang et al. (2018) Yu Wang, Mirela Ben-Chen, Iosif Polterovich, and Justin Solomon. Steklov spectral geometry for extrinsic shape analysis. ACM Trans. Graphics, 38(1):1–21, 2018.
- Wang et al. (2019a) Yu Wang, Vladimir Kim, Michael Bronstein, and Justin Solomon. Learning geometric operators on meshes. In ICLR Workshops, 2019a.
- Wang et al. (2019b) Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic graph CNN for learning on point clouds. ACM Trans. Graphics, 38(5):1–12, 2019b.
- Wardetzky (2008) Max Wardetzky. Convergence of the cotangent formula: An overview. Discrete Differential Geometry, pages 275–286, 2008.
- Wardetzky et al. (2007) Max Wardetzky, Saurabh Mathur, Felix Kälberer, and Eitan Grinspun. Discrete Laplace operators: no free lunch. In Symposium on Geometry Processing, 2007.
- Weiler et al. (2018) Maurice Weiler, Mario Geiger, Max Welling, Wouter Boomsma, and Taco Cohen. 3d steerable cnns: Learning rotationally equivariant features in volumetric data. arXiv:1807.02547, 2018.
- Weisfeiler and Leman (1968) Boris Weisfeiler and Andrei Leman. The reduction of a graph to canonical form and the algebra which appears therein. NTI Series, 2(9):12–16, 1968.
- Werbos (1988) Paul J Werbos. Generalization of backpropagation with application to a recurrent gas market model. Neural Networks, 1(4):339–356, 1988.
- Weyl (1929) Hermann Weyl. Elektron und gravitation. i. Zeitschrift für Physik, 56(5-6):330–352, 1929.
- Weyl (2015) Hermann Weyl. Symmetry. Princeton University Press, 2015.
- Winkels and Cohen (2019) Marysia Winkels and Taco S Cohen. Pulmonary nodule detection in ct scans with equivariant cnns. Medical Image Analysis, 55:15–26, 2019.
- Wood and Shawe-Taylor (1996) Jeffrey Wood and John Shawe-Taylor. Representation theory and invariant neural networks. Discrete Applied Mathematics, 69(1-2):33–60, 1996.
- Wu et al. (2019) Felix Wu, Amauri Souza, Tianyi Zhang, Christopher Fifty, Tao Yu, and Kilian Weinberger. Simplifying graph convolutional networks. In ICML, 2019.
- Wu and He (2018) Yuxin Wu and Kaiming He. Group normalization. In ECCV, 2018.
- Xu et al. (2020a) Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, and Kannan Achan. Inductive representation learning on temporal graphs. arXiv:2002.07962, 2020a.
- Xu et al. (2018) Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. How powerful are graph neural networks? arXiv:1810.00826, 2018.
- Xu et al. (2019) Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S Du, Ken-ichi Kawarabayashi, and Stefanie Jegelka. What can neural networks reason about? arXiv:1905.13211, 2019.
- Xu et al. (2020b) Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S Du, Ken-ichi Kawarabayashi, and Stefanie Jegelka. How neural networks extrapolate: From feedforward to graph neural networks. arXiv:2009.11848, 2020b.
- Yan et al. (2020) Yujun Yan, Kevin Swersky, Danai Koutra, Parthasarathy Ranganathan, and Milad Heshemi. Neural execution engines: Learning to execute subroutines. arXiv:2006.08084, 2020.
- Yang and Mills (1954) Chen-Ning Yang and Robert L Mills. Conservation of isotopic spin and isotopic gauge invariance. Physical Review, 96(1):191, 1954.
- Yang et al. (2016) Zhilin Yang, William Cohen, and Ruslan Salakhudinov. Revisiting semi-supervised learning with graph embeddings. In ICML, 2016.
- Yedidia et al. (2001) Jonathan S Yedidia, William T Freeman, and Yair Weiss. Bethe free energy, kikuchi approximations, and belief propagation algorithms. NIPS, 2001.
- Ying et al. (2018) Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai, William L Hamilton, and Jure Leskovec. Graph convolutional neural networks for web-scale recommender systems. In KDD, 2018.
- You et al. (2019) Jiaxuan You, Rex Ying, and Jure Leskovec. Position-aware graph neural networks. In ICML, 2019.
- Zaheer et al. (2017) Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Russ R Salakhutdinov, and Alexander J Smola. Deep sets. In NIPS, 2017.
- Zaremba and Sutskever (2014) Wojciech Zaremba and Ilya Sutskever. Learning to execute. arXiv:1410.4615, 2014.
- Zeng et al. (2012) Wei Zeng, Ren Guo, Feng Luo, and Xianfeng Gu. Discrete heat kernel determines discrete riemannian metric. Graphical Models, 74(4):121–129, 2012.
- Zhang et al. (2018) Jiani Zhang, Xingjian Shi, Junyuan Xie, Hao Ma, Irwin King, and Dit-Yan Yeung. Gaan: Gated attention networks for learning on large and spatiotemporal graphs. arXiv:1803.07294, 2018.
- Zhang et al. (2020) Yuyu Zhang, Xinshi Chen, Yuan Yang, Arun Ramamurthy, Bo Li, Yuan Qi, and Le Song. Efficient probabilistic logic reasoning with graph neural networks. arXiv:2001.11850, 2020.
- Zhu et al. (2019) Rong Zhu, Kun Zhao, Hongxia Yang, Wei Lin, Chang Zhou, Baole Ai, Yong Li, and Jingren Zhou. Aligraph: A comprehensive graph neural network platform. arXiv:1902.08730, 2019.
- Zhu and Razavian (2019) Weicheng Zhu and Narges Razavian. Variationally regularized graph-based representation learning for electronic health records. arXiv:1912.03761, 2019.
- Zhu et al. (2020) Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, and Liang Wang. Deep graph contrastive representation learning. arXiv:2006.04131, 2020.
- Zitnik et al. (2018) Marinka Zitnik, Monica Agrawal, and Jure Leskovec. Modeling polypharmacy side effects with graph convolutional networks. Bioinformatics, 34(13):i457–i466, 2018.